Fugu-MT 論文翻訳(概要): ADEPT: Adaptive Dynamic Early-Exit Process for Transformers

論文の概要: ADEPT: Adaptive Dynamic Early-Exit Process for Transformers

arxiv url: http://arxiv.org/abs/2601.03700v1
Date: Wed, 07 Jan 2026 08:34:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-08 18:12:46.16229
Title: ADEPT: Adaptive Dynamic Early-Exit Process for Transformers
Title（参考訳）: ADEPT: 変圧器の適応動的初期実行プロセス
Authors: Sangmin Yoo, Srikanth Malla, Chiho Choi, Wei D. Lu, Joon Hee Choi,
Abstract要約: 早期の出口戦略は、推論を早期に停止することで計算要求を減らすのに有効であることが証明されている。 ADEPTは、この問題を克服し、プリフィルとジェネレーションの両方の段階で動的早期終了を可能にするために設計された新しいアプローチである。 ADEPTは、言語生成タスクの最大25%の効率向上を実現し、下流分類タスクの4倍の高速化を実現し、最大45%の性能向上を実現している。
参考スコア（独自算出の注目度）: 12.23755727319088
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The inference of large language models imposes significant computational workloads, often requiring the processing of billions of parameters. Although early-exit strategies have proven effective in reducing computational demands by halting inference earlier, they apply either to only the first token in the generation phase or at the prompt level in the prefill phase. Thus, the Key-Value (KV) cache for skipped layers remains a bottleneck for subsequent token generation, limiting the benefits of early exit. We introduce ADEPT (Adaptive Dynamic Early-exit Process for Transformers), a novel approach designed to overcome this issue and enable dynamic early exit in both the prefill and generation phases. The proposed adaptive token-level early-exit mechanism adjusts computation dynamically based on token complexity, optimizing efficiency without compromising performance. ADEPT further enhances KV generation procedure by decoupling sequential dependencies in skipped layers, making token-level early exit more practical. Experimental results demonstrate that ADEPT improves efficiency by up to 25% in language generation tasks and achieves a 4x speed-up in downstream classification tasks, with up to a 45% improvement in performance.
Abstract（参考訳）: 大規模言語モデルの推論は重要な計算処理を課し、しばしば数十億のパラメータの処理を必要とする。早期終了戦略は、推論を早期に停止させることで計算要求を減らすのに有効であることが証明されているが、生成フェーズの第1トークンのみに適用するか、プリフィルフェーズの即時レベルで適用することができる。したがって、スキップされたレイヤに対するキーバリュー(KV)キャッシュは、後続のトークン生成のボトルネックであり、早期終了のメリットを制限している。本稿では, ADEPT (Adaptive Dynamic Early-Exit Process for Transformers) を導入する。提案した適応トークンレベルの早期出力機構は,トークンの複雑性に基づいて動的に計算を調整し,性能を損なうことなく効率を最適化する。 ADEPTは、スキップされた層で逐次依存関係を分離することでKV生成手順をさらに強化し、トークンレベルの早期終了をより実用的なものにする。実験の結果,ADEPTは言語生成タスクの最大25%の効率向上を実現し,下流分類タスクの4倍の高速化を実現し,性能は最大45%向上した。

関連論文リスト

OUSAC: Optimized Guidance Scheduling with Adaptive Caching for DiT Acceleration [4.771742494878726]
OUSACは分散トランスフォーマー(DiT)をシステム最適化により高速化するフレームワークである。我々の重要な洞察は、可変誘導スケールがスパース計算を可能にすることである。 Stage-1では、どのタイムステップをスキップするか、どのガイダンススケールを使うかを共同で最適化するために進化的アルゴリズムを採用している。ステージ2では、変圧器ブロックごとの校正作業を調整するアダプティブなランクアロケーションが導入されている。
論文参考訳（メタデータ） (2025-12-16T05:11:54Z)
BitStopper: An Efficient Transformer Attention Accelerator via Stage-fusion and Early Termination [14.53308613746613]
BitStopperは、粒度の細かいアルゴリズムアーキテクチャの共設計で、スパーシティ予測器を使わずに動作する。サンガーとSOFAの2.03倍と1.89倍のスピードアップを実現し、エネルギー効率は2.4倍と2.1倍向上した。
論文参考訳（メタデータ） (2025-12-06T14:44:38Z)
Decoupled Multi-Predictor Optimization for Inference-Efficient Model Tuning [59.27124079347153]
早期終了とマルチステージ予測器は、推論効率のよいモデルを実現するための簡単な方法を提供する。初期段階の予測者に高レベルの差別的特徴を同時に供給しながら、初期段階の基本的な特徴を深層に提供するにはどうすればよいのか? 本稿では,初期における低レベル代表能力と高レベル識別能力を効果的に分離する,分離型マルチプレクタ最適化(DMPO)手法を提案する。
論文参考訳（メタデータ） (2025-11-05T07:16:49Z)
IIET: Efficient Numerical Transformer via Implicit Iterative Euler Method [59.02943805284446]
Iterative Implicit Euler Transformer (IIET) IIADにより、ユーザはパフォーマンス効率のトレードオフを効果的にバランスできる。 E-IIETの変種は、バニラトランスフォーマーよりも平均的なパフォーマンスが1.6%以上向上した。
論文参考訳（メタデータ） (2025-09-26T15:14:03Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。 BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。 EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文参考訳（メタデータ） (2024-12-06T17:58:14Z)
FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [16.84400858871298]
本稿では、層固有のルータを用いて、各入力シーケンスに対して適応的に変換器層のサブセットを選択することでレイテンシを低減するアルゴリズムであるFiRSTを提案する。 FiRSTは品質を認識しながら高速な推論を可能にするKVキャッシュとの互換性を維持する。私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文参考訳（メタデータ） (2024-10-16T12:45:35Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Constraint-aware and Ranking-distilled Token Pruning for Efficient Transformer Inference [18.308180927492643]
ToPは、未精製モデルの最終層から初期精製モデルまで有効なトークンランキングを蒸留する、希釈型トークン蒸留技術である。 ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。
論文参考訳（メタデータ） (2023-06-26T03:06:57Z)
You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model [37.24203191658052]
大規模なTransformerモデルは、統一アーキテクチャで様々な下流視覚言語タスクに大幅な改善をもたらす。性能改善は、モデルサイズが増大し、推論速度が遅くなり、厳格化のコストが増大する。本稿では,エンコーダとデコーダのレイヤを動的にスキップできる統一視覚言語モデルのための新しい早期終了戦略を提案する。
論文参考訳（メタデータ） (2022-11-21T02:32:25Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Easy and Efficient Transformer : Scalable Inference Solution For large NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。 EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文参考訳（メタデータ） (2021-04-26T11:00:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。