論文の概要: Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.03113v1
- Date: Tue, 02 Jun 2026 03:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.743825
- Title: Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning
- Title(参考訳): 強化学習によるLLMのための経験駆動動的エクササイズ
- Authors: Yanyu Zhu, Hoilam Pao, Niu Hu, Wei Guo, Shaoxiong Zhan, Boyu Lai, Zitai Wang, Yongqin Zeng, Hai-Tao Zheng,
- Abstract要約: LEDEは、ローカルコンテキストに基づいて最適な出口層と投機長を動的に選択するポリシーを学ぶ。
Llama-2 と Llama-3 の総合評価では、LEDE は自己回帰復号よりも$2.0times$$$$$2.7times$スピードアップを達成している。
- 参考スコア(独自算出の注目度): 16.19290569626178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models suffer from slow autoregressive inference. While self-speculative decoding accelerates this process, its efficiency is hampered by static configurations like fixed exit layers and speculation lengths. We reframe this optimization as a \textbf{Markov Decision Process} and propose \textbf{LEDE}, a framework that uses offline reinforcement learning. LEDE learns a policy to dynamically select the optimal exit layer and speculation length based on the local context of the generated sequence at each step, balancing computational cost and draft quality. Comprehensive evaluations on Llama-2 and Llama-3 models show LEDE achieves up to a $2.0\times$$\sim$$2.7\times$ speedup over autoregressive decoding and and provides an additional 17\% speedup over the static speculative baselines.
- Abstract(参考訳): 大規模言語モデルは、遅い自己回帰推論に悩まされる。
自己投機的復号化はこの過程を加速するが、その効率は固定された出口層や投機長のような静的な構成によって妨げられる。
我々は、この最適化を \textbf{Markov Decision Process} として再設計し、オフラインの強化学習を利用するフレームワークである \textbf{LEDE} を提案する。
LEDEは、各ステップで生成されたシーケンスのローカルコンテキストに基づいて最適な出口層と投機長を動的に選択し、計算コストとドラフト品質のバランスをとるポリシーを学習する。
Llama-2とLlama-3の総合的な評価によると、LEDEは自動回帰復号よりも$2.0\times$$2.7\times$2\sim$$2.7\timesのスピードアップを実現し、静的投機ベースラインよりも17\%のスピードアップを提供する。
関連論文リスト
- Learning-Augmented Scalable Linear Assignment Problem Optimization via Neural Dual Warm-Starts [19.540758462427878]
最適性と最悪の保証を維持しつつ、正確な代入解決を高速化する学習強化フレームワークを提案する。
グラフベースのモデルのメモリボトルネックを$mathcalO(N2)$で回避する軽量な行独立アーキテクチャであるRowDualNetを紹介します。
論文 参考訳(メタデータ) (2026-05-10T07:15:49Z) - AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism [14.600392553338681]
大言語モデル(LLM)は、長いコンテキストタスクにおいて大きな有用性を示す。
既存のLLMトレーニングライブラリでは、長いコンテキストのトレーニングを最適化するための抽象化が簡単には提供されない。
より長いコンテキストでLLMトレーニングを自動的に最適化する最初の自動化ソリューションであるAutoSPを紹介します。
論文 参考訳(メタデータ) (2026-04-29T18:31:29Z) - Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference [36.81958522560282]
レイヤレベルでの注意を動的に最適化するコンテキスト対応フレームワークであるFlux Attentionを紹介します。
パラメータ効率のよいアプローチとして、我々のフレームワークは8$times$A800 GPU上でのトレーニングにわずか12時間しかかからない。
本フレームワークは,プリフィルおよびデコード段階において,最大2.8times$および2.0times$の速度改善を施したベースラインモデルと比較して,性能と推論速度のトレードオフを良好に実現している。
論文 参考訳(メタデータ) (2026-04-08T07:36:17Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - KnapSpec: Self-Speculative Decoding via Adaptive Layer Selection as a Knapsack Problem [12.668341559890605]
KnapSpecは、knapsack問題としてドラフトモデル選択を再構成し、トークン毎のスループットを最大化する、トレーニング不要のフレームワークである。
本稿では,トークンの受入率の数学的代用として,隠れ状態間のコサイン類似性を証明した最初の厳密な理論的解析を行う。
Qwen3とLlama3の実験は、KnapSpecが最先端のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-02-23T08:13:03Z) - CAS-Spec: Cascade Adaptive Self-Speculative Decoding for On-the-Fly Lossless Inference Acceleration of LLMs [48.8252978488871]
投機的復号化は、大きな言語モデルをデプロイする際のシームレスな統合と広範なユーティリティを提供する。
ドラフトモデルの階層化は、さらなる加速と柔軟性を約束するが、複数のモデルをトレーニングするコストが高いため、実用的応用は制限されている。
本稿では,投機的ドラフトモデルを構成するCascade Adaptive Self-Speculative Decoding(CAS-Spec)手法を提案する。
論文 参考訳(メタデータ) (2025-10-30T08:51:29Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。