論文の概要: Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?
- arxiv url: http://arxiv.org/abs/2510.00537v1
- Date: Wed, 01 Oct 2025 05:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.401858
- Title: Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?
- Title(参考訳): 言語モデルにおけるスペクトルスケーリング法則: フィードフォワードネットワークはその潜在空間をいかに効果的に利用するか?
- Authors: Nandan Kumar Jha, Brandon Reagen,
- Abstract要約: 本研究では、スペクトル利用問題として、フィードフォワードネットワーク(FFN)とリキャスト幅選択について検討する。
主な発見は非対称スペクトルスケーリング法則である。
我々は,FFN幅選択を,テールキャパシティと支配モードキャパシティのトレードオフとして再検討した。
- 参考スコア(独自算出の注目度): 2.8232103900765693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) scale, the question is not only how large they become, but how much of their capacity is effectively utilized. Existing scaling laws relate model size to loss, yet overlook how components exploit their latent space. We study feed-forward networks (FFNs) and recast width selection as a spectral utilization problem. Using a lightweight diagnostic suite -- Hard Rank (participation ratio), Soft Rank (Shannon rank), Spectral Concentration, and the composite Spectral Utilization Index (SUI) -- we quantify how many latent directions are meaningfully activated across LLaMA, GPT-2, and nGPT families. Our key finding is an asymmetric spectral scaling law: soft rank follows an almost perfect power law with FFN width, while hard rank grows only sublinearly and with high variance. This asymmetry suggests that widening FFNs mostly adds low-energy tail directions, while dominant-mode subspaces saturate early. Moreover, at larger widths, variance further collapses into a narrow subspace, leaving much of the latent space under-utilized. These results recast FFN width selection as a principled trade-off between tail capacity and dominant-mode capacity, offering concrete guidance for inference-efficient LLM design.
- Abstract(参考訳): 大規模言語モデル(LLM)がスケールするにつれて、その規模が大きくなるだけでなく、その能力の有効利用量も疑問視される。
既存のスケーリング法則は、モデルのサイズと損失を関連づけるが、コンポーネントが潜在空間をどのように悪用するかを見落としている。
本研究では、スペクトル利用問題として、フィードフォワードネットワーク(FFN)とリキャスト幅選択について検討する。
LLaMA, GPT-2, およびnGPTファミリー間で, 遅延方向が有意に活性化されているかを定量化するために, 軽量診断スイート -- ハードランク(参加率), ソフトランク(シャノンランク), スペクトル濃度, 複合スペクトル利用指数(SUI) -- を用いて検討した。
我々の重要な発見は非対称なスペクトルスケーリング法則であり、ソフトランクはFFN幅のほぼ完全なパワー則に従っており、ハードランクはサブ線形かつ高いばらつきでしか成長しない。
この非対称性は、FFNを拡大することが、主に低エネルギーの尾方向を増す一方、支配的なモード部分空間は早期に飽和することを示している。
さらに、より大きな幅では、分散はさらに狭い部分空間に崩壊し、潜在空間の多くは未利用のままである。
これらの結果は、FFN幅選択をテールキャパシティと支配モードキャパシティのトレードオフとして再考し、推論効率の高いLCM設計のための具体的なガイダンスを提供する。
関連論文リスト
- Polar Sparsity: High Throughput Batched LLM Inferencing with Scalable Contextual Sparsity [4.24164487223914]
我々はPolar Sparsityを導入し、バッチサイズとシーケンスの長さをスケールするときに、高密度からアテンション層への空間的重要度の重要なシフトを強調します。
我々は, OPT, LLaMA-2 & 3 などのモデルに対して, 様々なバッチサイズおよびシーケンス長に対して最大 (2.2 時間) のエンドツーエンド速度を, 精度を損なうことなく実現し, ハードウェア効率が高く, 分散性に配慮したカーネルを開発した。
論文 参考訳(メタデータ) (2025-05-20T20:15:42Z) - Superposition Yields Robust Neural Scaling [9.278468089636547]
我々は、ニューラルネットワークのスケーリング法則の起源について研究する。損失はモデルサイズによる電力法則として減少する。
重畳が弱ければ、最も頻繁な特徴だけが干渉なく表現されることになるが、モデルサイズによる損失のスケーリングは、基礎となる特徴周波数に依存する。
表現重畳は、観測されたニューラルネットワークのスケーリング法則の根底にある重要なメカニズムである、と結論付けている。
論文 参考訳(メタデータ) (2025-05-15T16:18:13Z) - Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - Temporal Scaling Law for Large Language Models [70.74571133406958]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - Training-time Neuron Alignment through Permutation Subspace for
Improving Linear Mode Connectivity and Model Fusion [14.46991748119817]
トレーニング時間置換サブスペースは、LCC障壁を無償で削減することができる。
トレーニング中に部分勾配マスクを用いたアルゴリズムであるTNA-PFNを導入する。
広いモデル融合の応用、特に連合学習において優れている。
論文 参考訳(メタデータ) (2024-02-02T11:57:50Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Discrete Langevin Sampler via Wasserstein Gradient Flow [102.94731267405056]
離散空間におけるワッサーシュタイン勾配流に対応する LB 関数がどのように LB 力学をもたらすかを示す。
シミュレーション時間に関してLBダイナミクスを識別し,新しいアルゴリズムであるLocally Balanced Jump (LBJ)を提案する。
論文 参考訳(メタデータ) (2022-06-29T20:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。