論文の概要: DASH: Input-Aware Dynamic Layer Skipping for Efficient LLM Inference with Markov Decision Policies
- arxiv url: http://arxiv.org/abs/2505.17420v1
- Date: Fri, 23 May 2025 03:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.783736
- Title: DASH: Input-Aware Dynamic Layer Skipping for Efficient LLM Inference with Markov Decision Policies
- Title(参考訳): DASH: マルコフ決定法を用いた効率的なLLM推論のための入力対応動的層スキッピング
- Authors: Ning Yang, Fangxin Liu, Junjie Wang, Tao Yang, Kan Liu, Haibing Guan, Li Jiang,
- Abstract要約: textbfDASHは入力特性で条件付けられたパスを動的に選択する。
補償機構は 決定プロセスに 差分報酬を注入する
非同期実行戦略は、実行時のオーバーヘッドを最小限に抑えるために、レイヤ計算とポリシー評価を重複させる。
- 参考スコア(独自算出の注目度): 22.562212737269924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable performance across a wide range of NLP tasks. However, their substantial inference cost poses a major barrier to real-world deployment, especially in latency-sensitive scenarios. To address this challenge, we propose \textbf{DASH}, an adaptive layer-skipping framework that dynamically selects computation paths conditioned on input characteristics. We model the skipping process as a Markov Decision Process (MDP), enabling fine-grained token-level decisions based on intermediate representations. To mitigate potential performance degradation caused by skipping, we introduce a lightweight compensation mechanism that injects differential rewards into the decision process. Furthermore, we design an asynchronous execution strategy that overlaps layer computation with policy evaluation to minimize runtime overhead. Experiments on multiple LLM architectures and NLP benchmarks show that our method achieves significant inference acceleration while maintaining competitive task performance, outperforming existing methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いNLPタスクで顕著なパフォーマンスを実現している。
しかし、その相当な推論コストは、特にレイテンシに敏感なシナリオにおいて、現実世界のデプロイメントにおいて大きな障壁となる。
この課題に対処するために,入力特性に条件付き計算経路を動的に選択する適応型層スキッピングフレームワークである \textbf{DASH} を提案する。
我々は,切り抜き処理をマルコフ決定プロセス (MDP) としてモデル化し,中間表現に基づくきめ細かいトークンレベルの決定を可能にする。
スキップによる潜在的な性能劣化を軽減するため,決定プロセスに差分報酬を注入する軽量な補償機構を導入する。
さらに,実行時のオーバーヘッドを最小限に抑えるため,レイヤ計算とポリシ評価を重複させる非同期実行戦略を設計する。
複数のLLMアーキテクチャとNLPベンチマーク実験により,既存の手法よりも優れた競合タスク性能を維持しながら,提案手法が大きな推論高速化を実現することが示された。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy [67.45518210171024]
動的計算手法は、いくつかの計算層をスキップすることで、Large Language Models (LLM) に対する顕著な加速を示す。
対象の高速化率のみに基づいて計算をスキップする層数を選択する統一層スキーッピング戦略を提案する。
機械翻訳とテキスト要約という2つの共通タスクの実験結果は、目標速度比が与えられた場合、統一層スキーピング戦略は推論性能と実際のモデルスループットの両方を著しく向上させることを示している。
論文 参考訳(メタデータ) (2024-04-10T12:12:07Z) - M-HOF-Opt: Multi-Objective Hierarchical Output Feedback Optimization via Multiplier Induced Loss Landscape Scheduling [4.369346338392536]
連立モデルパラメータと乗算器の進化をモデル化した確率的グラフィカルモデルを提案する。
代用単目的ペナルティ損失による多目的モデルパラメータ最適化に対処する。
論文 参考訳(メタデータ) (2024-03-20T16:38:26Z) - Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。