論文の概要: Language Model Behavioral Phases are Consistent Across Architecture, Training Data, and Scale
- arxiv url: http://arxiv.org/abs/2510.24963v1
- Date: Tue, 28 Oct 2025 20:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.787089
- Title: Language Model Behavioral Phases are Consistent Across Architecture, Training Data, and Scale
- Title(参考訳): 言語モデル行動フェーズはアーキテクチャ、トレーニングデータ、スケールに一貫性がある
- Authors: James A. Michaelov, Roger P. Levy, Benjamin K. Bergen,
- Abstract要約: 自己回帰言語モデルでは, 事前学習の過程で, 行動の変化のパターンが極めて一貫したことを示す。
単語レベルでの言語モデル行動のばらつきの最大98%は、3つの単純な確率で説明できることがわかった。
これらの結果は、モデルの詳細に関係なく、ニューラル言語モデルにおける学習は同様の軌道に従う可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 6.372261626436675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that across architecture (Transformer vs. Mamba vs. RWKV), training dataset (OpenWebText vs. The Pile), and scale (14 million parameters to 12 billion parameters), autoregressive language models exhibit highly consistent patterns of change in their behavior over the course of pretraining. Based on our analysis of over 1,400 language model checkpoints on over 110,000 tokens of English, we find that up to 98% of the variance in language model behavior at the word level can be explained by three simple heuristics: the unigram probability (frequency) of a given word, the $n$-gram probability of the word, and the semantic similarity between the word and its context. Furthermore, we see consistent behavioral phases in all language models, with their predicted probabilities for words overfitting to those words' $n$-gram probabilities for increasing $n$ over the course of training. Taken together, these results suggest that learning in neural language models may follow a similar trajectory irrespective of model details.
- Abstract(参考訳): アーキテクチャ全体(Transformer vs. Mamba vs. RWKV)、トレーニングデータセット(OpenWebText vs. The Pile)、スケール(1400万のパラメータから1200億のパラメータ)、自動回帰言語モデルは、事前トレーニングの過程で、その振る舞いに非常に一貫したパターンを示す。
単語レベルの言語モデル行動の最大98%は、与えられた単語のユニグラム確率(周波数)、単語の$n$-gram確率、単語とその文脈間の意味的類似性という3つの単純なヒューリスティックによって説明できる。
さらに、全ての言語モデルにおいて一貫した行動段階が見られ、それらの単語に過度に適合する単語に対する予測確率は、トレーニング中にn$を増大させるための$n$-gramの確率である。
これらの結果は、モデルの詳細に関係なく、ニューラル言語モデルにおける学習は同様の軌道に従う可能性があることを示唆している。
関連論文リスト
- Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory Prediction [23.45902601618188]
言語モデルは、文脈理解と生成性能において印象的な能力を示してきた。
LMTraj (Language-based Multimodal Trajectory predictor) を提案する。
本稿では,言語に基づくモデルが,歩行者の軌道予測に有効なことを示し,既存の数値ベースの予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T11:06:44Z) - Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。
我々のモデルでは、ほとんどの接続は学習後に決定論的になる。
本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文 参考訳(メタデータ) (2023-09-08T03:58:05Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - Modeling the Unigram Distribution [39.153612297712655]
ユニグラム分布は、コーパス内の特定の単語形式を見つける非文脈確率である。
我々はそれを言語で推定するための新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-06-04T07:02:49Z) - Implicit Representations of Meaning in Neural Language Models [31.71898809435222]
会話を通して進化する実体や状況のモデルとして機能する文脈表現を同定する。
その結果,事前学習されたニューラルネットワークモデルにおける予測は,少なくとも部分的には,意味の動的表現と実体状態の暗黙的なシミュレーションによって支持されていることが示唆された。
論文 参考訳(メタデータ) (2021-06-01T19:23:20Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。