論文の概要: The Diminishing Returns of Early-Exit Decoding in Modern LLMs
- arxiv url: http://arxiv.org/abs/2603.23701v1
- Date: Tue, 24 Mar 2026 20:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.021274
- Title: The Diminishing Returns of Early-Exit Decoding in Modern LLMs
- Title(参考訳): 近代LLMにおける初期出力復号の復号化
- Authors: Rui Wei, Rui Du, Hanfei Yu, Devesh Tiwari, Jian Li, Zhaozhuo Xu, Hao Wang,
- Abstract要約: 我々は,現代のLarge Language Model (LLM) 推論において,レイヤワイド・アーリーエグジットを再評価する。
モデルの本質的な適合性を早期に定量化する指標を提案する。
密度変換器は一般的に、Mixture-of-ExpertsやState Space Modelsよりも早期のポテンシャルが大きい。
- 参考スコア(独自算出の注目度): 22.442245764201406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Large Language Model (LLM) inference, early-exit refers to stopping computation at an intermediate layer once the prediction is sufficiently confident, thereby reducing latency and cost. However, recent LLMs adopt improved pretraining recipes and architectures that reduce layer redundancy, potentially limiting early-exit opportunities. We re-evaluate layer-wise early-exit in modern LLMs and analyze how intermediate representations evolve during training. We introduce a metric to quantify a model's intrinsic suitability for early-exit and propose a benchmark for researchers to explore the potential early-exit benefits on different models and workloads. Our results show a diminishing trend in early-exit effectiveness across newer model generations. We further find that dense transformers generally offer greater early-exit potential than Mixture-of-Experts and State Space Models. In addition, larger models, particularly those with more than 20 billion parameters, and base pretrained models without specialized tuning tend to exhibit higher early-exit potential.
- Abstract(参考訳): LLM(Large Language Model)推論では、早期排他は予測が十分に自信を持っていれば中間層での計算を停止し、遅延とコストを低減させる。
しかし、最近のLCMでは、事前学習のレシピやアーキテクチャが改良され、レイヤーの冗長性が減少し、早期退避の機会が制限される可能性がある。
我々は、現代のLCMにおける階層的早期退避を再評価し、トレーニング中に中間表現がどのように進化するかを分析する。
そこで本研究では,モデルの本質的な初期適応性を定量化するための指標を提案し,様々なモデルやワークロードにおける早期終了のメリットについて,研究者が検討するベンチマークを提案する。
以上の結果から,新世代モデルにおける早期退行効果の低下傾向が示唆された。
さらに、高密度変圧器は一般的に、Mixture-of-ExpertsやState Space Modelsよりも早期のポテンシャルが大きいことが判明した。
さらに、より大規模なモデル、特に200億以上のパラメータを持つモデルや、特別なチューニングのないベーストレーニング済みモデルでは、早期退避の可能性が高くなる傾向にある。
関連論文リスト
- A transformer architecture alteration to incentivise externalised reasoning [1.2571323258597842]
我々は,中間層で早期終了機構を備えた既存のトランスフォーマーアーキテクチャを拡張し,次のトークンを深層計算なしで予測できる場合に,より浅い層でモデルを出力するように訓練する。
この効果を小さな推論モデルに適用し、トークン間の計算を適応的に削減することを学ぶことを示す。
適切なスケールで適用すれば、推論モデルが非ミオピック計画を実行するために処理する過剰な計算量を最小化できると予測する。
論文 参考訳(メタデータ) (2026-03-22T19:28:21Z) - Learning a Generative Meta-Model of LLM Activations [75.30161960337892]
ネットワークの内部状態の分布を学習する"メタモデル"を作成します。
ステアリング介入前に学んだメタモデルを適用することで、損失が減少するにつれて、流速が向上する。
これらの結果は、生成的メタモデルが制限的な構造的仮定を伴わずに、解釈可能性へのスケーラブルな経路を提供することを示唆している。
論文 参考訳(メタデータ) (2026-02-06T18:59:56Z) - Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better [24.03797089794804]
我々は,大規模言語モデルが初期のステップやそれ以前のレイヤで後続の知識を学習できるようにするため,LET(Lat-to-Early Training)パラダイムを提案する。
LETの有効性を駆動する2つの重要なメカニズムは、後期から後期の学習と後期から後期の学習である。
本手法は, 最大1.6$times$の高速化を実現し, ダウンストリームタスクの精度を標準訓練と比較して5%近く向上した。
論文 参考訳(メタデータ) (2026-02-05T07:19:34Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。