論文の概要: LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
- arxiv url: http://arxiv.org/abs/2605.23901v1
- Date: Fri, 22 May 2026 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.464733
- Title: LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
- Title(参考訳): LLMs as Noisy Channels:Shannon Perspective on Model Capacity and Scaling Laws
- Authors: Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma,
- Abstract要約: 本稿では,大規模言語モデルの学習を雑音のあるチャネル上での情報伝達としてモデル化する統合理論フレームワークを提案する。
モデルパラメータをチャネル帯域幅にマッピングし,信号パワーにトークンをトレーニングすることにより,学習信号と固有雑音との相互作用を明示的に把握する。
我々は、ガウスノイズ、量子化、数学、QA、コードタスクの教師付き微調整などを含む摂動下でのPythiaとOLMo2の実験を通して、我々の理論を検証する。
- 参考スコア(独自算出の注目度): 21.699528063973915
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong $R^2$ scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on $\leq$6.9B Pythia models with $\leq$180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled $R^2{=}0.847$, while monotonic baselines collapse.
- Abstract(参考訳): 大規模言語モデル(LLM)の既存のスケーリング法則は、主に単調なパワー法則であり、破滅的なオーバートレーニングや量子化による劣化といった新しい非単調現象を説明できない。
本稿では,Shannon-Hartley の定理に基づき,LLM トレーニングをノイズチャネル上の情報伝達としてモデル化する統一理論フレームワークであるShannon Scaling Lawを提案する。
モデルパラメータをチャネル帯域幅にマッピングし,信号パワーにトークンをトレーニングすることにより,学習信号と固有雑音との相互作用を明示的に把握する。
十分な信号-雑音比(SNR)を保たないモデルサイズやデータのスケーリングは、必然的にノイズを増幅し、単調な改善からU字型の性能劣化への遷移を引き起こす。
我々は、ガウスノイズ、量子化、数学、QA、コードタスクの教師付き微調整などを含む摂動下でのPythiaとOLMo2の実験を通して、我々の理論を検証する。
シャノンスケーリング法(Shannon Scaling Law)は、古典的なスケーリング法と最近の摂動認識法を一貫して上回り、R^2$スコアを強く達成し、以前のアプローチで見逃された損失盆地を正確に捉えている。
さらに、$\leq$6.9B Pythiaモデルに$\leq$180Bのトークンを付け、プールされた$R^2{=}0.847$で307Bまでの未確認12Bモデルを予測し、一方単調なベースラインは崩壊する。
関連論文リスト
- Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory [77.27772368491698]
Muonのようなスペクトルは、最近、大規模な言語モデルトレーニングにおいて、強い経験的パフォーマンスを示している。
我々はこの問題を線形連想記憶問題を通して研究する。
また,Muonの貯蔵能力はSGDよりも有意に高いことがわかった。
論文 参考訳(メタデータ) (2026-03-27T16:13:18Z) - Dispersion Loss Counteracts Embedding Condensation and Improves Generalization in Small Language Models [55.908141398092646]
大規模言語モデル(LLM)はパラメータ数の増加によって顕著な性能を達成するが、スケーリングは計算コストの急激な増加を招く。
本研究では,LLMと小型モデルの表現特性を再現することを目的として,LLMと小型モデルの表現特性の相違について検討する。
我々は、 $textttGPT2$ や $textttQwen3-0.6B$ のような小さなモデルは、深刻な凝縮を示し、 $textttGPT2-xl$ や $textttQwen3-32B のような大きなモデルは、
論文 参考訳(メタデータ) (2026-01-30T16:07:03Z) - Theoretical Foundations of Scaling Law in Familial Models [46.506708373314375]
モデルサイズ(N)とトレーニングトークン(D)とともに、基本的なスケーリング変数としてグラニュラリティ(G)を導入します。
この結果から, 極小指数の乗法則に準じる粒度ペナルティが明らかとなった。
のパラダイムを検証することで、デプロイメントの柔軟性が達成可能であることを実証しています。
論文 参考訳(メタデータ) (2025-12-29T12:01:58Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - Has LLM Reached the Scaling Ceiling Yet? Unified Insights into LLM Regularities and Constraints [0.0]
大きな言語モデル(LLM)は目覚ましい能力を示していますが、そのスケーラビリティには重要な疑問があります。
本稿では,LLMのスケーリング力学を説明するために,数学的および統計的知見を統合する統一理論フレームワークを開発する。
今後の進歩には、ブルートフォーススケーリングから、アーキテクチャ、データ品質、トレーニングパラダイムの革新に移行する必要があります。
論文 参考訳(メタデータ) (2024-12-21T02:19:07Z) - Bayesian scaling laws for in-context learning [85.34114399339741]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者に近似していることを示し、ICCの新しいベイズスケーリング法を生み出した。
我々のスケーリング法則は既存のスケーリング法則と精度で一致し、タスクの優先順位、学習効率、サンプルごとの確率の解釈可能な用語も提供します。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Neural Scaling Laws From Large-N Field Theory: Solvable Model Beyond the Ridgeless Limit [0.0]
我々は、Maloney, Roberts, Sully によって提案されたモデルを解くために、大N場の理論手法を用いる。
モデルとトレーニングデータセットのサイズの対称性を説明するダイアグラムレベルでの双対変換を明らかにする。
論文 参考訳(メタデータ) (2024-05-29T18:00:01Z) - QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models [44.515165695546614]
量子化アウェアトレーニング(QAT)はソリューションを提供するが、トレーニング後の量子化(PTQ)は大規模言語モデル(LLM)のより実践的なアプローチとなる。
LLM向けに設計された高精度かつ効率的な低ビット幅PTQ法QLLMを提案する。
論文 参考訳(メタデータ) (2023-10-12T05:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。