論文の概要: Listen and Chant Before You Read: The Ladder of Beauty in LM Pre-Training
- arxiv url: http://arxiv.org/abs/2604.21265v1
- Date: Thu, 23 Apr 2026 04:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.29836
- Title: Listen and Chant Before You Read: The Ladder of Beauty in LM Pre-Training
- Title(参考訳): 読者が読む前に聞く: LM事前学習の美女
- Authors: Yoshinori Nomura,
- Abstract要約: 言語前におけるトランスフォーマーの事前学習は,言語習得を著しく加速させることを示す。
構造化された人間の創造的出力は、小さな言語モデルのための効率的な事前学習基盤を提供することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that pre-training a Transformer on music before language significantly accelerates language acquisition. Using piano performances (MAESTRO dataset), a developmental pipeline -- music $\to$ poetry $\to$ prose -- yields a $17.5\%$ perplexity improvement over random initialization ($p < 0.001$, 5 seeds), with music and poetry improving orthogonal model components (internal computation and embeddings, respectively). Convergence tests confirm that this is not a transient head start: at $d\!=\!64$, multi-seed validation (5 seeds) shows a persistent 5.5\% gap at plateau ($p = 0.017$), with the pipeline converging faster and to a lower loss in every run. Real music matches the transfer ceiling of synthetic patterns with one-third the data, and scaling experiments reveal that optimal pre-training data volume shifts with model capacity ($-3\% \to +3\% \to +6\%$ advantage of larger datasets from $d\!=\!16$ to $d\!=\!64$). Across the scales we study ($d\!\in\!\{16,32,64\}$, up to ${\sim}400$K parameters), these results suggest a capacity-dependent data curation principle and indicate that structured human creative outputs can provide an efficient pre-training substrate for small language models; stronger conclusions at modern pre-training scale will require substantially larger experiments.
- Abstract(参考訳): 言語前におけるトランスフォーマーの事前学習は,言語習得を著しく加速させることを示す。
ピアノ演奏(MAESTROデータセット)を使用して、開発パイプライン -- 音楽の$\to$ poetry $\to$ prose -- は、ランダム初期化(p < 0.001$, 5 seed)よりも17.5\%$ Perplexity改善(p < 0.001$, 5 seed)し、音楽と詩は直交モデルコンポーネント(それぞれ内部計算と埋め込み)を改善している。
収束テストでは、これは一時的なスタートではないことが確認されている。
=\!
64$、マルチシードのバリデーション(5シード)は、高原(p = 0.017$)で持続5.5\%のギャップを示し、パイプラインはより速く収束し、実行毎に損失が小さくなる。
実際の音楽は、合成パターンの転送天井をデータの3分の1と一致させ、スケーリング実験により、最適な事前学習データボリュームシフトがモデル容量で(3\% \to +3\% \to +6\%$$$d\!
=\!
16ドルから$d\!
=\!
64ドル)。
私たちが研究するスケール全体($d\!
イン!
16,32,64\}$, 最大${\sim}400$Kパラメータのこれらの結果は、キャパシティに依存したデータキュレーションの原則を示唆し、構造化された人間の創造的出力が、小さな言語モデルのための効率的な事前学習基盤を提供することを示す。
関連論文リスト
- Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency [26.173523821684306]
トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。
7 sim 70$のパラメータを持つ大規模言語モデルの実験では、D3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2025-03-11T15:15:54Z) - Parameter-Efficient Transfer Learning for Music Foundation Models [51.61531917413708]
音楽基礎モデルのパラメータ効率変換学習(PETL)について検討する。
PETL法は、音楽の自動タグ付けにおいて、探索と微調整の両方に優れる。
PETL法は、トレーニングコストを大幅に削減し、微調整と同様の結果を得る。
論文 参考訳(メタデータ) (2024-11-28T20:50:40Z) - An Empirical Study of $μ$P Learning Rate Transfer [0.0]
実際に,$mu$-Transfer法によってほぼ最適な学習率が得られることを示す。
明らかな約束にもかかわらず、$mu$P メソッドはまだ広く採用されていない。
論文 参考訳(メタデータ) (2024-04-08T17:59:44Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - The MiniPile Challenge for Data-Efficient Language Models [2.0305676256390934]
The MiniPile Challengeでは、少なくとも100万のドキュメントを含む多種多様なテキストコーパス上で、言語モデルを事前訓練する。
MiniPileは825GBのThe Pile corpusの6GBサブセットである。
言語モデルの事前トレーニングに対するMiniPileの適合性を検証するために、BERTとT5モデルを事前トレーニングするために使用しました。
論文 参考訳(メタデータ) (2023-04-17T17:03:56Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。
我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文 参考訳(メタデータ) (2022-09-07T20:10:12Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。