論文の概要: Convergence and Divergence of Language Models under Different Random Seeds
- arxiv url: http://arxiv.org/abs/2509.26643v1
- Date: Tue, 30 Sep 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.660275
- Title: Convergence and Divergence of Language Models under Different Random Seeds
- Title(参考訳): 異なるランダムシードの下での言語モデルの収束と多様性
- Authors: Finlay Fehlauer, Kyle Mahowald, Tiago Pimentel,
- Abstract要約: コンバージェンス(コンバージェンス)は,種子間でのコンバージェンス(コンバージェンス)を期待値として測定する。
より大きなモデルは後続のトレーニング段階でより高速に再収束するのに対し、小さなモデルは実際には再収束しない。
- 参考スコア(独自算出の注目度): 26.31262670498101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the convergence of language models (LMs) trained under different random seeds, measuring convergence as the expected per-token Kullback--Leibler (KL) divergence across seeds. By comparing LM convergence as a function of model size and training checkpoint, we identify a four-phase convergence pattern: (i) an initial uniform phase, (ii) a sharp-convergence phase, (iii) a sharp-divergence phase, and (iv) a slow-reconvergence phase. Further, we observe that larger models reconverge faster in later training stages, while smaller models never actually reconverge; these results suggest that a certain model size may be necessary to learn stable distributions. Restricting our analysis to specific token frequencies or part-of-speech (PoS) tags further reveals that convergence is uneven across linguistic categories: frequent tokens and function words converge faster and more reliably than their counterparts (infrequent tokens and content words). Overall, our findings highlight factors that influence the stability of the learned distributions in model training.
- Abstract(参考訳): 本稿では,異なるランダムな種子の下で訓練された言語モデル (LM) の収束について検討し,その収束度を,種子間のKL(Kulback-Leibler) の分散度として測定する。
モデルサイズとトレーニングチェックポイントの関数としてLM収束を比較することにより、4相収束パターンを同定する。
(i)初期一様相
(ii)鋭い収束相
(三)鋭発散期、及び
(4) 緩やかな再収束相。
さらに、後続の訓練段階においてより大規模なモデルがより高速に再収束するのに対し、より小さなモデルが実際に再収束することはなく、これらの結果から、安定した分布を学習するには一定のモデルサイズが必要である可能性が示唆された。
分析を特定のトークン周波数やPoS(Part-of-speech)タグに限定すると、コンバージェンスは言語カテゴリーによって不均一であることがさらに明らかになる。
本研究は,モデル学習における学習分布の安定性に影響を及ぼす要因を明らかにする。
関連論文リスト
- A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective [8.15094483029656]
拡散モデルは並列トークンサンプリングを可能にし、より高速な生成と左から右への生成制約を排除する。
我々は情報理論の観点から拡散言語モデルの収束保証を開発する。
これらの結果は拡散言語モデルの実用性に関する新たな理論的洞察を与える。
論文 参考訳(メタデータ) (2025-05-27T16:24:20Z) - Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts [1.9458156037869137]
収束学習は、神経システムが同様の内部表現に到達する度合いである。
数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。
発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-26T00:04:24Z) - Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Pairwise Learning via Stagewise Training in Proximal Setting [0.0]
非平滑凸対損失関数の収束保証と、適応的なサンプルサイズとペアワイズ学習のための重要サンプリング手法を組み合わせる。
それぞれに逆のインスタンスをサンプリングすると勾配の分散が減少し、収束が加速することを示した。
論文 参考訳(メタデータ) (2022-08-08T11:51:01Z) - A view of mini-batch SGD via generating functions: conditions of
convergence, phase transitions, benefit from negative momenta [14.857119814202754]
運動量を持つミニバッチSGDは、大きな予測モデルを学ぶための基本的なアルゴリズムである。
そこで我々は,線形モデルに対する最小バッチSGDを,異なるモータとバッチサイズで解析する新しい分析フレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-22T14:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。