論文の概要: Accelerating Large Language Model Inference via Early-Exiting Algorithms
- arxiv url: http://arxiv.org/abs/2509.05915v1
- Date: Sun, 07 Sep 2025 04:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.77475
- Title: Accelerating Large Language Model Inference via Early-Exiting Algorithms
- Title(参考訳): アーリーエグゼクティングアルゴリズムによる大規模言語モデル推論の高速化
- Authors: Sangmin Bae,
- Abstract要約: 論文:適応アルゴリズムとモデルアーキテクチャを共同設計し、ダイナミズムと効率の最適なバランスをとる。
まず, 高速並列復号化機構を提案することにより, 従来の初期出力におけるオーバーヘッドの重要源に対処する。
次に、パラメータ共有が、コンパクトでパラメータ効率のよいモデルを生成するだけでなく、動的推論に影響を及ぼす重要な同期問題を本質的に緩和するアーキテクチャ基盤を提供することを示す。
- 参考スコア(独自算出の注目度): 10.338409447316373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have achieved remarkable capabilities, but their practical deployment is hindered by significant computational costs. While adaptive computation methods like early-exiting promise to reduce these costs, they introduce a fundamental conflict: the per-token dynamism intended to save computation often creates system-level bottlenecks that can paradoxically reduce throughput in batched inference. This dissertation resolves this conflict by co-designing adaptive algorithms and model architectures to strike an optimal balance between dynamism and efficiency. To this end, our work first addresses critical sources of overhead in conventional early-exiting by proposing an efficient parallel decoding mechanism. We then show that deep parameter sharing provides an architectural foundation that not only yields compact, parameter-efficient models but also inherently mitigates the critical synchronization issues affecting dynamic inference. Finally, this work presents a unified framework where lightweight routers are pretrained to dynamically assign an optimal recursion depth for each token. This approach establishes a new Pareto frontier between efficiency and performance by effectively optimizing for both adaptive computation and parameter efficiency within a single model.
- Abstract(参考訳): 大規模言語モデルは目覚ましい能力を達成したが、その実践的な展開は計算コストの増大によって妨げられている。
計算を減らそうとする1対1のダイナミズムは、しばしばシステムレベルのボトルネックを生み出し、バッチ推論のスループットをパラドックス的に減少させる。
この論文は、適応アルゴリズムとモデルアーキテクチャを共同設計し、ダイナミズムと効率の最適なバランスをとることで、この対立を解決する。
この目的のために,本研究は,並列復号化機構を提案することによって,従来の早期実行における重要なオーバーヘッド源に対処する。
次に、パラメータ共有が、コンパクトでパラメータ効率のよいモデルを生成するだけでなく、動的推論に影響を及ぼす重要な同期問題を本質的に緩和するアーキテクチャ基盤を提供することを示す。
最後に、各トークンに対して最適な再帰深さを動的に割り当てるために、軽量ルータを事前訓練する統一的なフレームワークを提案する。
このアプローチは、適応計算とパラメータ効率の両方を効果的に最適化することにより、効率と性能の新たなParetoフロンティアを確立する。
関連論文リスト
- Principled Approximation Methods for Efficient and Scalable Deep Learning [4.082286997378594]
本論文は,ディープラーニングシステムの効率向上のための原理的近似法について考察する。
アーキテクチャ設計,モデル圧縮,最適化という,効率向上のための3つの主要なアプローチについて検討する。
私たちのコントリビューションは、スケーラブルで原則化された近似を通じて、計算的に難しい問題に取り組むことに集中しています。
論文 参考訳(メタデータ) (2025-08-29T18:17:48Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - Efficiency optimization of large-scale language models based on deep learning in natural language processing tasks [6.596361762662328]
大規模言語モデルの内部構造と操作機構を理論的に解析する。
我々は、適応最適化アルゴリズム(AdamWなど)、大規模並列計算技術、混合精度訓練戦略の寄与を評価した。
論文 参考訳(メタデータ) (2024-05-20T00:10:00Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - A Deep Unrolling Model with Hybrid Optimization Structure for Hyperspectral Image Deconvolution [50.13564338607482]
本稿では,DeepMixと呼ばれるハイパースペクトルデコンボリューション問題に対する新しい最適化フレームワークを提案する。
これは3つの異なるモジュール、すなわちデータ一貫性モジュール、手作りの正規化器の効果を強制するモジュール、および装飾モジュールで構成されている。
本研究は,他のモジュールの協調作業によって達成される進歩を維持するために設計された,文脈を考慮した認知型モジュールを提案する。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。