論文の概要: On the Fundamental Limits of LLMs at Scale
- arxiv url: http://arxiv.org/abs/2511.12869v1
- Date: Mon, 17 Nov 2025 01:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.593833
- Title: On the Fundamental Limits of LLMs at Scale
- Title(参考訳): LLMの基礎限界について
- Authors: Muhammad Ahmed Mohsin, Muhammad Umer, Ahsan Bilal, Zeeshan Memon, Muhammad Ibtsaam Qadir, Sagnik Bhattacharya, Hassan Rizwan, Abhiram R. Gorle, Maahe Zehra Kazmi, Ayesha Mohsin, Muhammad Usman Rafique, Zihao He, Pulkit Mehta, Muhammad Ali Jamshed, John M. Cioffi,
- Abstract要約: 大きな言語モデル(LLM)は、スケーリングから非常に恩恵を受けていますが、これらの利益には5つの基本的な制限があります。
この研究は、LLMスケーリングの本質的に理論的な天井を形式化する統一された証明インフォームド・フレームワークを提示する。
確率に基づくトレーニングは、推論よりもパターン補完を優先し、トークン制限下での検索はセマンティックドリフトとカップリングノイズに苦しむこと、マルチモーダルスケーリングが浅度なクロスモーダルアライメントをいかに継承するかを示す。
- 参考スコア(独自算出の注目度): 15.459708840379975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have benefited enormously from scaling, yet these gains are bounded by five fundamental limitations: (1) hallucination, (2) context compression, (3) reasoning degradation, (4) retrieval fragility, and (5) multimodal misalignment. While existing surveys describe these phenomena empirically, they lack a rigorous theoretical synthesis connecting them to the foundational limits of computation, information, and learning. This work closes that gap by presenting a unified, proof-informed framework that formalizes the innate theoretical ceilings of LLM scaling. First, computability and uncomputability imply an irreducible residue of error: for any computably enumerable model family, diagonalization guarantees inputs on which some model must fail, and undecidable queries (e.g., halting-style tasks) induce infinite failure sets for all computable predictors. Second, information-theoretic and statistical constraints bound attainable accuracy even on decidable tasks, finite description length enforces compression error, and long-tail factual knowledge requires prohibitive sample complexity. Third, geometric and computational effects compress long contexts far below their nominal size due to positional under-training, encoding attenuation, and softmax crowding. We further show how likelihood-based training favors pattern completion over inference, how retrieval under token limits suffers from semantic drift and coupling noise, and how multimodal scaling inherits shallow cross-modal alignment. Across sections, we pair theorems and empirical evidence to outline where scaling helps, where it saturates, and where it cannot progress, providing both theoretical foundations and practical mitigation paths like bounded-oracle retrieval, positional curricula, and sparse or hierarchical attention.
- Abstract(参考訳): 大規模言語モデル(LLM)は、スケーリングから大きな恩恵を受けているが、これらの利益には、(1)幻覚、(2)コンテキスト圧縮、(3)推論の劣化、(4)検索の脆弱、(5)マルチモーダルなミスアライメントの5つの基本的な制限がある。
既存の調査ではこれらの現象を実証的に記述しているが、それらが計算、情報、学習の基礎的な限界に結びついている厳密な理論的な合成は欠如している。
この研究は、LSMスケーリングの本質的に理論的な天井を形式化する統一された証明インフォームドフレームワークを提示することで、このギャップを埋める。
まず、計算可能性と計算不可能性は誤りの既約残余を暗示する:任意の計算可能可算モデル族に対して、対角化は、あるモデルが失敗しなければならない入力を保証し、決定不能なクエリ(例えば、停止スタイルのタスク)は計算可能予測子に対して無限の故障セットを誘導する。
第二に、情報理論および統計的制約は、決定可能なタスクでも達成可能な精度に拘束され、有限記述長は圧縮誤差を強制し、長期の事実知識は禁断的なサンプル複雑さを必要とする。
第3に、幾何学的および計算的効果は、位置訓練、符号化減衰、ソフトマックス群集により、その名目サイズよりもはるかに低い長い文脈を圧縮する。
さらに、確率に基づくトレーニングは、推論よりもパターン補完が好ましいこと、トークン制限下での検索がセマンティックドリフトやカップリングノイズに悩まされること、マルチモーダルスケーリングが浅いクロスモーダルアライメントをいかに継承するかを示す。
セクション全体で、我々は定理と経験的エビデンスを組み合わせて、スケーリングの助けとなる場所、飽和する場所、進行できない場所を概説し、有界軌道探索、位置曲線、スパースまたは階層的注意といった理論的基礎と実践的な緩和経路を提供する。
関連論文リスト
- Solving Inequality Proofs with Large Language Models [42.667163027148916]
不等式証明は様々な科学・数学分野において不可欠である。
これにより、大きな言語モデル(LLM)の需要が高まるフロンティアとなる。
我々は、Olympiadレベルの不平等を専門家が計算したデータセットであるIneqMathをリリースした。
論文 参考訳(メタデータ) (2025-06-09T16:43:38Z) - Has LLM Reached the Scaling Ceiling Yet? Unified Insights into LLM Regularities and Constraints [0.0]
大きな言語モデル(LLM)は目覚ましい能力を示していますが、そのスケーラビリティには重要な疑問があります。
本稿では,LLMのスケーリング力学を説明するために,数学的および統計的知見を統合する統一理論フレームワークを開発する。
今後の進歩には、ブルートフォーススケーリングから、アーキテクチャ、データ品質、トレーニングパラダイムの革新に移行する必要があります。
論文 参考訳(メタデータ) (2024-12-21T02:19:07Z) - Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。
これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。
この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2024-03-18T14:55:45Z) - On the Nonconvexity of Push-Forward Constraints and Its Consequences in Machine Learning [1.4061979259370274]
プッシュフォワード操作により、地図を通して確率測度を再分配することができる。
統計学において重要な役割を担い、最適な輸送の影響から生成モデルへの多くの問題である。
本研究の目的は,予測やアルゴリズム学習の問題を研究者がよりよく理解することである。
論文 参考訳(メタデータ) (2024-03-12T10:06:48Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Scaling Laws for Deep Learning [1.90365714903665]
この論文では、これらのコストの根底にあるアルゴリズム的および方法論的制約に対処する体系的なアプローチを採っている。
まず、ディープラーニングトレーニングとプルーニングが、スケーリング法則によって予測可能であり、管理されていることを実証する。
そして、ノイズのない実現可能なケースの探索を通して、DLは実際、低いエラー限界からかなり離れた誤差源によって支配されていることを示す。
論文 参考訳(メタデータ) (2021-08-17T15:37:05Z) - Lagrangian Duality for Constrained Deep Learning [51.2216183850835]
本稿では,複雑な制約を特徴とする学習アプリケーションにおけるラグランジアン双対性の可能性について検討する。
エネルギー領域において、ラグランジアン双対性とディープラーニングの組み合わせは、最先端の結果を得るために用いられる。
翻訳計算において、ラグランジュ双対性は、予測子に単調性制約を課すためにディープラーニングを補完することができる。
論文 参考訳(メタデータ) (2020-01-26T03:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。