論文の概要: A Hybrid Early-Exit Algorithm for Large Language Models Based on Space Alignment Decoding (SPADE)
- arxiv url: http://arxiv.org/abs/2507.17618v1
- Date: Wed, 23 Jul 2025 15:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.069581
- Title: A Hybrid Early-Exit Algorithm for Large Language Models Based on Space Alignment Decoding (SPADE)
- Title(参考訳): 空間アライメントデコーディング(SPADE)に基づく大規模言語モデルのハイブリッド早期実行アルゴリズム
- Authors: Bowen Zheng, Ming Ma, Zhongqiao Lin, Tianming Yang,
- Abstract要約: 大規模言語モデルは、その深い構造のために計算コストが高い。
中間層表現を出力層に整合させる新しい復号法であるSPADEを提案する。
我々は,SPADEを用いて高品質な出力を生成しながら,信頼度を監視し,中間層での推論を停止するハイブリッド・アーリーエグジットアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 3.1775609005777024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are computationally expensive due to their deep structures. Prior research has shown that intermediate layers contain sufficient information to generate accurate answers, leading to the development of early-exit algorithms that reduce inference costs by terminating computation at earlier layers. However, these methods often suffer from poor performance due to misalignment between intermediate and output layer representations that lead to decoding inaccuracy. To address these challenges, we propose SPADE (SPace Alignment DEcoding), a novel decoding method that aligns intermediate layer representations with the output layer by propagating a minimally reduced sequence consisting of only the start token and the answer token. We further optimize the early-exit decision-making process by training a linear approximation of SPADE that computes entropy-based confidence metrics. Putting them together, we create a hybrid early-exit algorithm that monitors confidence levels and stops inference at intermediate layers while using SPADE to generate high-quality outputs. This approach significantly reduces inference costs without compromising accuracy, offering a scalable and efficient solution for deploying large language models in real-world applications.
- Abstract(参考訳): 大規模言語モデルは、その深い構造のために計算コストが高い。
従来の研究では、中間層は正確な答えを生成するのに十分な情報を含んでいることが示されており、初期の層での計算を終了させることで推論コストを削減するアルゴリズムの開発につながっている。
しかし、これらの手法は、中間層と出力層とのミスアライメントにより、デコードの不正確さを引き起こすため、性能が低下することが多い。
これらの課題に対処するため,SPADE(SPace Alignment Decoding)を提案する。SPADE(SPace Alignment Decoding)は,開始トークンと応答トークンのみからなる最小限のシーケンスを伝搬することにより,中間層表現を出力層に整合させる新しい復号法である。
さらに,エントロピーに基づく信頼度を算出したSPADEの線形近似をトレーニングすることにより,早期の意思決定プロセスを最適化する。
そこで我々は,SPADEを用いて高品質な出力を生成しながら,信頼度を監視し,中間層での推論を停止するハイブリッド・アーリーエグジットアルゴリズムを開発した。
このアプローチは精度を損なうことなく推論コストを大幅に削減し、現実世界のアプリケーションに大規模言語モデルをデプロイするためのスケーラブルで効率的なソリューションを提供する。
関連論文リスト
- Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Fast Solvers for Discrete Diffusion Models: Theory and Applications of High-Order Algorithms [31.42317398879432]
現在の推論アプローチは主に、正確なシミュレーションと$tau$-leapingのような近似メソッドの2つのカテゴリに分類される。
本研究では,高次数値推論スキームの最初の拡張を離散拡散モデルに合わせることで,後者のカテゴリを推し進める。
提案手法を厳密に解析し,KL分散における$theta$-trapezoidal法の2次精度を確立する。
論文 参考訳(メタデータ) (2025-02-01T00:25:21Z) - A Survey of Early Exit Deep Neural Networks in NLP [5.402030962296633]
ディープニューラルネットワーク(DNN)は、幅広いタスクにわたるアートパフォーマンスを実現するために、ますます大きくなっている。
高い計算要求により、リソース制約のあるアプリケーションには適さない。
初期のエグジット戦略は、適応推論を有効にすることで、有望な解決策を提供する。
論文 参考訳(メタデータ) (2025-01-13T20:08:52Z) - Offline Oracle-Efficient Learning for Contextual MDPs via Layerwise Exploration-Exploitation Tradeoff [12.847844923530577]
実現可能性前提の下で, CMDP からオフライン密度推定への削減を提案する。
本アルゴリズムの特筆すべき特徴は,CMDPの層状構造に対応するため,層状探索・探索トレードオフの設計である。
論文 参考訳(メタデータ) (2024-05-28T03:47:41Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - You Need Multiple Exiting: Dynamic Early Exiting for Accelerating
Unified Vision Language Model [37.24203191658052]
大規模なTransformerモデルは、統一アーキテクチャで様々な下流視覚言語タスクに大幅な改善をもたらす。
性能改善は、モデルサイズが増大し、推論速度が遅くなり、厳格化のコストが増大する。
本稿では,エンコーダとデコーダのレイヤを動的にスキップできる統一視覚言語モデルのための新しい早期終了戦略を提案する。
論文 参考訳(メタデータ) (2022-11-21T02:32:25Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。