論文の概要: Dynamic Rebatching for Efficient Early-Exit Inference with DREX
- arxiv url: http://arxiv.org/abs/2512.15705v1
- Date: Wed, 17 Dec 2025 18:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.115919
- Title: Dynamic Rebatching for Efficient Early-Exit Inference with DREX
- Title(参考訳): DREXを用いた効率的な早期入出力推論のための動的再バッチ
- Authors: Xuting Liu, Daniel Alexander, Siva Kesava Reddy Kakarla, Behnaz Arzani, Vincent Liu,
- Abstract要約: Early-Exit(EE)はLarge Language Model(LLM)アーキテクチャで、モデルレイヤのサブセットだけを使用して簡単にトークンを生成できるようにすることで、推論を加速する。
既存のソリューションは、EEの機会を見落としているバッチの統一的な決定を強制するか、早めの終了を強制することによって出力品質を低下させるかのいずれかです。
早期終了時点でバッチを動的に再編成するソリューションであるDynamic Rebatchingを提案する。
- 参考スコア(独自算出の注目度): 3.421837779024594
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Early-Exit (EE) is a Large Language Model (LLM) architecture that accelerates inference by allowing easier tokens to be generated using only a subset of the model's layers. However, traditional batching frameworks are ill-suited for EE LLMs, as not all requests in a batch may be ready to exit at the same time. Existing solutions either force a uniform decision on the batch, which overlooks EE opportunities, or degrade output quality by forcing premature exits. We propose Dynamic Rebatching, a solution where we dynamically reorganize the batch at each early-exit point. Requests that meet the exit criteria are immediately processed, while those that continue are held in a buffer, re-grouped into a new batch, and forwarded to deeper layers. We introduce DREX, an early-exit inference system that implements Dynamic Rebatching with two key optimizations: 1) a copy-free rebatching buffer that avoids physical data movement, and 2) an EE and SLA-aware scheduler that analytically predicts whether a given rebatching operation will be profitable. DREX also efficiently handles the missing KV cache from skipped layers using memory-efficient state-copying. Our evaluation shows that DREX improves throughput by 2-12% compared to baseline approaches while maintaining output quality. Crucially, DREX completely eliminates involuntary exits, providing a key guarantee for preserving the output quality intended by the EE model.
- Abstract(参考訳): Early-Exit(EE)はLarge Language Model(LLM)アーキテクチャで、モデルレイヤのサブセットだけを使用してトークンを簡単に生成できるようにすることで、推論を加速する。
しかし、従来のバッチフレームワークはEE LLMには適していない。
既存のソリューションは、EEの機会を見落としているバッチに対して一様の決定を強制するか、早めの終了を強制することによって出力品質を低下させるかのいずれかです。
早期終了時点でバッチを動的に再編成するソリューションであるDynamic Rebatchingを提案する。
終了基準を満たすリクエストは直ちに処理され、継続するリクエストはバッファに保持され、新しいバッチに再グループ化され、より深いレイヤに転送される。
DREXは、動的リバッチを2つの重要な最適化で実装した、初期出力推論システムである。
1)物理データの動きを避けるコピーフリーリバッチバッファ
2)EE および SLA 対応スケジューラは,所定の再バッチ操作が利益になるかどうかを解析的に予測する。
DREXはまた、メモリ効率のよいステートコピーを使用して、スキップされたレイヤから欠落したKVキャッシュを効率的に処理する。
評価の結果,DREXは出力品質を維持しつつ,ベースラインアプローチに比べてスループットを2~12%向上することがわかった。
重要なことは、DREXは不随意の出口を完全に排除し、EEモデルが意図した出力品質を維持するための重要な保証を提供する。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - ERTACache: Error Rectification and Timesteps Adjustment for Efficient Diffusion [30.897215456167753]
拡散モデルは、本質的に反復的推論プロセスのため、かなりの計算オーバーヘッドに悩まされる。
我々は、両方のエラータイプを共同で修正する原則的なキャッシュフレームワークであるERTACacheを提案する。
ERTACacheは最大2倍の推論スピードアップを実現します。
論文 参考訳(メタデータ) (2025-08-27T10:37:24Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。
RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。
また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文 参考訳(メタデータ) (2025-06-01T23:49:14Z) - HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving [2.7433801927536074]
初期段階の大規模言語モデル(EE-LLM)は、中間層でトークンを早期に終了させることで、高いスループットの推論を可能にする。
既存のEE-LLMフレームワークは単一のモデルに依存しているので、トークン生成レイテンシはボトルネックになる。
我々はトークン生成遅延とバッチサイズの両方を改善するフレームワークである$textitHELIOSを提案する。
論文 参考訳(メタデータ) (2025-04-14T21:30:43Z) - BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。
BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - BATON: Enhancing Batch-wise Inference Efficiency for Large Language Models via Dynamic Re-batching [4.610983384440473]
本稿では,処理バッチを動的に調整し,効率的なバッチ単位のLLM推論手法であるBATONを提案する。
最先端のソリューションであるOrcaと比較して、BATONはクエリ処理を最大1.75倍改善する。
論文 参考訳(メタデータ) (2024-10-24T12:53:39Z) - ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。
また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。
当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%~75%の推論コストを削減できる。
論文 参考訳(メタデータ) (2021-05-28T14:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。