論文の概要: Dispersion Loss Counteracts Embedding Condensation and Improves Generalization in Small Language Models
- arxiv url: http://arxiv.org/abs/2602.00217v1
- Date: Fri, 30 Jan 2026 16:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.062131
- Title: Dispersion Loss Counteracts Embedding Condensation and Improves Generalization in Small Language Models
- Title(参考訳): 分散損失対策による凝縮の埋め込みと小言語モデルの一般化
- Authors: Chen Liu, Xingzhi Sun, Xi Xiao, Alexandre Van Tassel, Ke Xu, Kristof Reimann, Danqi Liao, Mark Gerstein, Tianyang Wang, Xiao Wang, Smita Krishnaswamy,
- Abstract要約: 大規模言語モデル(LLM)はパラメータ数の増加によって顕著な性能を達成するが、スケーリングは計算コストの急激な増加を招く。
本研究では,LLMと小型モデルの表現特性を再現することを目的として,LLMと小型モデルの表現特性の相違について検討する。
我々は、 $textttGPT2$ や $textttQwen3-0.6B$ のような小さなモデルは、深刻な凝縮を示し、 $textttGPT2-xl$ や $textttQwen3-32B のような大きなモデルは、
- 参考スコア(独自算出の注目度): 55.908141398092646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve remarkable performance through ever-increasing parameter counts, but scaling incurs steep computational costs. To better understand LLM scaling, we study representational differences between LLMs and their smaller counterparts, with the goal of replicating the representational qualities of larger models in the smaller models. We observe a geometric phenomenon which we term $\textbf{embedding condensation}$, where token embeddings collapse into a narrow cone-like subspace in some language models. Through systematic analyses across multiple Transformer families, we show that small models such as $\texttt{GPT2}$ and $\texttt{Qwen3-0.6B}$ exhibit severe condensation, whereas the larger models such as $\texttt{GPT2-xl}$ and $\texttt{Qwen3-32B}$ are more resistant to this phenomenon. Additional observations show that embedding condensation is not reliably mitigated by knowledge distillation from larger models. To fight against it, we formulate a dispersion loss that explicitly encourages embedding dispersion during training. Experiments demonstrate that it mitigates condensation, recovers dispersion patterns seen in larger models, and yields performance gains across 10 benchmarks. We believe this work offers a principled path toward improving smaller Transformers without additional parameters.
- Abstract(参考訳): 大規模言語モデル(LLM)はパラメータ数の増加によって顕著な性能を達成するが、スケーリングは計算コストの急激な増加を招く。
LLMのスケーリングをよりよく理解するために,LLMとそれより小さなモデルとの表現的差異について検討し,より小さなモデルにおける大規模モデルの表現的特性を再現することを目的とした。
我々は、トークンの埋め込みがいくつかの言語モデルにおいて狭いコーンのような部分空間に崩壊する、$\textbf{embedding condensation}$という幾何学現象を観察する。
複数のトランスフォーマー族にわたる体系的な解析により、$\textt{GPT2}$や$\texttt{Qwen3-0.6B}$のような小さなモデルでは強い凝縮を示すのに対し、$\textt{GPT2-xl}$や$\texttt{Qwen3-32B}$のような大きなモデルは、この現象に対してより抵抗的であることを示す。
さらなる観測により、埋め込み凝縮はより大きなモデルからの知識蒸留によって確実に緩和されないことが示されている。
これに対抗するために、トレーニング中に分散の埋め込みを明示的に促進する分散損失を定式化する。
実験では、凝縮を緩和し、より大きなモデルで見られる分散パターンを復元し、10ベンチマークで性能が向上することを示した。
この作業は、パラメータを追加せずに、より小さなトランスフォーマーを改善するための、原則化されたパスを提供する、と私たちは信じています。
関連論文リスト
- Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models [50.99097734404912]
RLフレンドリなモデルでは, クラス内コンパクト性やクラス間分離が, 正誤応答に対する確率割当に現れることを示す。
6つの数学ベンチマークによる実験では、すべてのモデルファミリで一貫した改善が見られ、AIME24では5.9ポイントまで向上した。
論文 参考訳(メタデータ) (2026-01-11T13:34:44Z) - LLM Probability Concentration: How Alignment Shrinks the Generative Horizon [13.184240238106016]
また,アライメント調整によってモデル出力分布が大幅に向上することを示す。
この洞察に基づいて、この一貫性は複雑な推論に驚くべき意味を持つ。
論文 参考訳(メタデータ) (2025-06-22T02:00:37Z) - A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective [8.15094483029656]
拡散モデルは並列トークンサンプリングを可能にし、より高速な生成と左から右への生成制約を排除する。
我々は情報理論の観点から拡散言語モデルの収束保証を開発する。
これらの結果は拡散言語モデルの実用性に関する新たな理論的洞察を与える。
論文 参考訳(メタデータ) (2025-05-27T16:24:20Z) - Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - LOTOS: Layer-wise Orthogonalization for Training Robust Ensembles [13.776549741449557]
リプシッツ連続性が伝達率に及ぼす影響について検討する。
アンサンブルのための新しい訓練パラダイムであるLOTOSを導入し、この悪影響に対処する。
論文 参考訳(メタデータ) (2024-10-07T15:43:28Z) - Reducing Spatial Fitting Error in Distillation of Denoising Diffusion
Models [13.364271265023953]
拡散モデルの知識蒸留は、この制限に短いサンプリングプロセスで対処する有効な方法である。
本研究は,教師モデルと学生モデルの両方のトレーニングにおいて発生する空間的適合誤差に起因する。
SFERDは教師モデルと設計した意味的勾配予測器からの注意誘導を利用して、学生の適合誤差を低減する。
CIFAR-10で5.31、ImageNet 64$times$64で9.39のFIDを実現する。
論文 参考訳(メタデータ) (2023-11-07T09:19:28Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。