論文の概要: ADEPT: Adaptive Dynamic Early-Exit Process for Transformers
- arxiv url: http://arxiv.org/abs/2601.03700v1
- Date: Wed, 07 Jan 2026 08:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.16229
- Title: ADEPT: Adaptive Dynamic Early-Exit Process for Transformers
- Title(参考訳): ADEPT: 変圧器の適応動的初期実行プロセス
- Authors: Sangmin Yoo, Srikanth Malla, Chiho Choi, Wei D. Lu, Joon Hee Choi,
- Abstract要約: 早期の出口戦略は、推論を早期に停止することで計算要求を減らすのに有効であることが証明されている。
ADEPTは、この問題を克服し、プリフィルとジェネレーションの両方の段階で動的早期終了を可能にするために設計された新しいアプローチである。
ADEPTは、言語生成タスクの最大25%の効率向上を実現し、下流分類タスクの4倍の高速化を実現し、最大45%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 12.23755727319088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The inference of large language models imposes significant computational workloads, often requiring the processing of billions of parameters. Although early-exit strategies have proven effective in reducing computational demands by halting inference earlier, they apply either to only the first token in the generation phase or at the prompt level in the prefill phase. Thus, the Key-Value (KV) cache for skipped layers remains a bottleneck for subsequent token generation, limiting the benefits of early exit. We introduce ADEPT (Adaptive Dynamic Early-exit Process for Transformers), a novel approach designed to overcome this issue and enable dynamic early exit in both the prefill and generation phases. The proposed adaptive token-level early-exit mechanism adjusts computation dynamically based on token complexity, optimizing efficiency without compromising performance. ADEPT further enhances KV generation procedure by decoupling sequential dependencies in skipped layers, making token-level early exit more practical. Experimental results demonstrate that ADEPT improves efficiency by up to 25% in language generation tasks and achieves a 4x speed-up in downstream classification tasks, with up to a 45% improvement in performance.
- Abstract(参考訳): 大規模言語モデルの推論は重要な計算処理を課し、しばしば数十億のパラメータの処理を必要とする。
早期終了戦略は、推論を早期に停止させることで計算要求を減らすのに有効であることが証明されているが、生成フェーズの第1トークンのみに適用するか、プリフィルフェーズの即時レベルで適用することができる。
したがって、スキップされたレイヤに対するキーバリュー(KV)キャッシュは、後続のトークン生成のボトルネックであり、早期終了のメリットを制限している。
本稿では, ADEPT (Adaptive Dynamic Early-Exit Process for Transformers) を導入する。
提案した適応トークンレベルの早期出力機構は,トークンの複雑性に基づいて動的に計算を調整し,性能を損なうことなく効率を最適化する。
ADEPTは、スキップされた層で逐次依存関係を分離することでKV生成手順をさらに強化し、トークンレベルの早期終了をより実用的なものにする。
実験の結果,ADEPTは言語生成タスクの最大25%の効率向上を実現し,下流分類タスクの4倍の高速化を実現し,性能は最大45%向上した。
関連論文リスト
- OUSAC: Optimized Guidance Scheduling with Adaptive Caching for DiT Acceleration [4.771742494878726]
OUSACは分散トランスフォーマー(DiT)をシステム最適化により高速化するフレームワークである。
我々の重要な洞察は、可変誘導スケールがスパース計算を可能にすることである。
Stage-1では、どのタイムステップをスキップするか、どのガイダンススケールを使うかを共同で最適化するために進化的アルゴリズムを採用している。
ステージ2では、変圧器ブロックごとの校正作業を調整するアダプティブなランクアロケーションが導入されている。
論文 参考訳(メタデータ) (2025-12-16T05:11:54Z) - BitStopper: An Efficient Transformer Attention Accelerator via Stage-fusion and Early Termination [14.53308613746613]
BitStopperは、粒度の細かいアルゴリズムアーキテクチャの共設計で、スパーシティ予測器を使わずに動作する。
サンガーとSOFAの2.03倍と1.89倍のスピードアップを実現し、エネルギー効率は2.4倍と2.1倍向上した。
論文 参考訳(メタデータ) (2025-12-06T14:44:38Z) - IIET: Efficient Numerical Transformer via Implicit Iterative Euler Method [59.02943805284446]
Iterative Implicit Euler Transformer (IIET)
IIADにより、ユーザはパフォーマンス効率のトレードオフを効果的にバランスできる。
E-IIETの変種は、バニラトランスフォーマーよりも平均的なパフォーマンスが1.6%以上向上した。
論文 参考訳(メタデータ) (2025-09-26T15:14:03Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。
BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [16.84400858871298]
本稿では、層固有のルータを用いて、各入力シーケンスに対して適応的に変換器層のサブセットを選択することでレイテンシを低減するアルゴリズムであるFiRSTを提案する。
FiRSTは品質を認識しながら高速な推論を可能にするKVキャッシュとの互換性を維持する。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文 参考訳(メタデータ) (2024-10-16T12:45:35Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Constraint-aware and Ranking-distilled Token Pruning for Efficient
Transformer Inference [18.308180927492643]
ToPは、未精製モデルの最終層から初期精製モデルまで有効なトークンランキングを蒸留する、希釈型トークン蒸留技術である。
ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。
論文 参考訳(メタデータ) (2023-06-26T03:06:57Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。