論文の概要: Capability Ceilings in Autoregressive Language Models: Empirical Evidence from Knowledge-Intensive Tasks
- arxiv url: http://arxiv.org/abs/2510.21866v1
- Date: Thu, 23 Oct 2025 11:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.628918
- Title: Capability Ceilings in Autoregressive Language Models: Empirical Evidence from Knowledge-Intensive Tasks
- Title(参考訳): 自己回帰型言語モデルにおける能力決定:知識集約型タスクによる実証的エビデンス
- Authors: Javier Marín,
- Abstract要約: 知識集約型タスクにおけるデコーダのみの自己回帰言語モデルにおける機能天井の文書化を行う。
我々は、OPTおよびPythiaモデルファミリーの能力特異的スケーリング障害を定量化し、リソース割り当て決定を通知する。
- 参考スコア(独自算出の注目度): 0.2538209532048866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We document empirical capability ceilings in decoder-only autoregressive language models across knowledge-intensive tasks. Systematic evaluation of OPT and Pythia model families (70M-30B parameters, spanning 240 times scaling) reveals that knowledge retrieval tasks show negligible accuracy improvement despite smooth loss reduction. On MMLU mathematics benchmarks, accuracy remains flat at 19-20% (below 25% random chance) across all scales while cross-entropy loss decreases by 31%. In contrast, procedural tasks like arithmetic show conventional scaling where both metrics improve together. Attention intervention experiments reveal high sensitivity to perturbation: swapping attention patterns between models causes catastrophic performance collapse (complete accuracy loss) rather than graceful degradation. These measurements have immediate engineering implications: for knowledge-intensive applications using OPT and Pythia architectures, parameter scaling beyond 1-2B offers minimal accuracy gains despite continued loss improvement. Our findings quantify capability-specific scaling failures in these model families to inform resource allocation decisions. Whether these patterns reflect fundamental constraints of decoder-only architectures or implementation-specific limitations remains an open question requiring investigation across diverse architectural approaches.
- Abstract(参考訳): 知識集約型タスクにおけるデコーダのみの自己回帰言語モデルにおける経験的能力天井について述べる。
OPTおよびPythiaモデルファミリー(70M-30Bパラメータ、240倍のスケーリング)の体系的評価により、スムーズな損失低減にもかかわらず知識検索タスクは無視できる精度の向上を示すことが明らかとなった。
MMLU数学のベンチマークでは、すべてのスケールで精度が19-20%(確率25%以下)であり、クロスエントロピー損失は31%減少している。
対照的に、算術のような手続き的なタスクは、両方のメトリクスが一緒に改善される従来のスケーリングを示している。
モデル間の注意パターンの交換は、優雅な劣化ではなく、破滅的なパフォーマンスの崩壊(完全な精度損失)を引き起こす。
OPTとPythiaアーキテクチャを用いた知識集約型アプリケーションの場合、1-2Bを超えるパラメータスケーリングは、損失の改善が続くにもかかわらず、最小限の精度向上をもたらす。
本研究は,これらのモデルファミリーにおける機能固有のスケーリング障害を定量化し,リソース割り当ての決定を通知する。
これらのパターンがデコーダのみのアーキテクチャの基本的制約を反映しているのか、あるいは実装固有の制限なのかは、さまざまなアーキテクチャアプローチを調査する必要があるオープンな疑問である。
関連論文リスト
- Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels [72.3670919950349]
大規模言語モデル(LLM)は、事前訓練中にかなりの世界の知識を得る。
教師付き微調整(SFT)のようなポストトレーニング技術はこの知識変化の振る舞いを形作る。
LLaMA-2 と LLaMA-3 の 5 つの LLM を対象としたクローズドブック質問応答 (CBQA) の性能評価を行った。
論文 参考訳(メタデータ) (2025-09-20T09:40:32Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Uncertainty Weighted Gradients for Model Calibration [22.39558434131574]
ディープネットワークは、しばしば過信または過信の予測を生成し、誤校正につながる。
そこで我々は, モデルキャリブレーションにおけるそれらの優位性を損失重み付け因子に主に寄与する, 焦点損失とその変種に対する統一的損失フレームワークを提案する。
本手法は,SOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T04:16:05Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Lightweight, Uncertainty-Aware Conformalized Visual Odometry [2.429910016019183]
データ駆動型ビジュアルオドメトリー(VO)は、自律エッジロボティクスにとって重要なサブルーチンである。
昆虫スケールドローンや外科ロボットのような最先端ロボットデバイスは、VOの予測の不確実性を推定する計算的に効率的な枠組みを欠いている。
本稿では,共形推論(CI)を利用してVOの不確実な帯域を抽出する,新しい,軽量で統計的に堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T20:37:55Z) - DeepFT: Fault-Tolerant Edge Computing using a Self-Supervised Deep
Surrogate Model [12.335763358698564]
本稿では,システム過負荷とその悪影響を積極的に回避するためにDeepFTを提案する。
DeepFTは、システム内の障害を正確に予測し、診断するために、ディープサロゲートモデルを使用している。
モデルのサイズが1ユニットあたりわずか3~1%のスケールで、アクティブなタスクやホストの数が増えるため、非常にスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2022-12-02T16:51:58Z) - Do Not Forget to Attend to Uncertainty while Mitigating Catastrophic
Forgetting [29.196246255389664]
ディープラーニングモデルの大きな制限の1つは、漸進的な学習シナリオにおいて、破滅的な忘れに直面していることだ。
ベイズ式を定式化して,不確実性をモデル化する。
漸進的な学習問題に対処するために、自己認識フレームワークも組み込んでいます。
論文 参考訳(メタデータ) (2021-02-03T06:54:52Z) - A comparison of Monte Carlo dropout and bootstrap aggregation on the
performance and uncertainty estimation in radiation therapy dose prediction
with deep learning neural networks [0.46180371154032895]
本稿では,モンテカルロ投棄法(MCDO)とブートストラップアグリゲーション(バッグング)をディープラーニングモデルに応用し,放射線治療用線量予測の不確かさを推定する手法を提案する。
パフォーマンス面では、バギングは調査対象のほとんどの指標において統計的に顕著な損失値と誤差を減少させる。
論文 参考訳(メタデータ) (2020-11-01T00:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。