Fugu-MT 論文翻訳(概要): Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency

論文の概要: Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency

arxiv url: http://arxiv.org/abs/2503.08524v1
Date: Tue, 11 Mar 2025 15:15:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 22:35:51.844091
Title: Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency
Title（参考訳）: 位置認識深度デコード(D^3$):大規模言語モデル推論効率を高める
Authors: Siqi Fan, Xuezhi Fang, Xingrun Xing, Peng Han, Shuo Shang, Yequan Wang,
Abstract要約: トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。 7 sim 70$のパラメータを持つ大規模言語モデルの実験では、D3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。
参考スコア（独自算出の注目度）: 26.173523821684306
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the large number of parameters, the inference phase of Large Language Models (LLMs) is resource-intensive. Unlike traditional model compression, which needs retraining, recent dynamic computation methods show that not all components are required for inference, enabling a training-free pipeline. In this paper, we focus on the dynamic depth of LLM generation. A token-position aware layer skipping framework is proposed to save 1.5x times operations efficiently while maintaining performance. We first observed that tokens predicted later have lower perplexity and thus require less computation. Then, we propose a training-free algorithm called Position-Aware Depth Decay Decoding ($D^3$), which leverages a power-law decay function, $\left\lfloor L \times (\alpha^i) \right\rfloor$, to determine the number of layers to retain when generating token $T_i$. Remarkably, without any retraining, the $D^3$ achieves success across a wide range of generation tasks for the first time. Experiments on large language models (\ie the Llama) with $7 \sim 70$ billion parameters show that $D^3$ can achieve an average 1.5x speedup compared with the full-inference pipeline while maintaining comparable performance with nearly no performance drop ($<1\%$) on the GSM8K and BBH benchmarks.
Abstract（参考訳）: パラメータが多すぎるため、LLM(Large Language Models)の推論フェーズはリソース集約型である。再トレーニングが必要な従来のモデル圧縮とは異なり、最近の動的計算手法では、すべてのコンポーネントが推論に必要ではないことが示され、トレーニング不要のパイプラインが実現されている。本稿では,LLM生成の動的深さに着目した。トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。まず,後に予測されるトークンのパープレキシティが低下し,計算コストが低下することが観察された。そこで我々は,T_i$ の生成時に保持する層数を決定するために,パワーロー減衰関数 $\left\lfloor L \times (\alpha^i) \right\rfloor$ を利用する,位置認識Depth Decoding (D^3$) というトレーニングフリーアルゴリズムを提案する。注目すべきは、D^3$は再トレーニングなしで、初めて広範囲の世代タスクで成功することだ。 7ドルの70億ドルのパラメータを持つ大規模言語モデル(\ie the Llama)の実験によると、GSM8KとBBHのベンチマークでは、ほぼパフォーマンス低下(<1\%$)で同等のパフォーマンスを維持しながら、D^3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。

関連論文リスト

Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文参考訳（メタデータ） (2025-02-20T09:59:50Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Scaling Embedding Layers in Language Models [52.47659840377581]
SCONEは、キャッシュされた$n$-gram埋め込みの数を増やし、それらを学ぶのに使用されるモデルをスケーリングする、固定された推論時間FLOPSを維持しながら、2つの新しいスケーリング戦略を実現する。両面のスケーリングにより,SCONE は推論時間 FLOPS の半分しか使用せず,多様なコーパスで 1.9B パラメータのベースラインを上回り得ることを示す。
論文参考訳（メタデータ） (2025-02-03T18:59:32Z)
SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training [16.037614012166063]
Gradient Descent(SGD)は、トレーニング中に状態変数をトラッキングしないため、ステートレスで拡張性がある。本研究では,SGDを非定常的に前処理することで,LLMのトレーニングを行うAdamと同じ性能が得られることを示す。正規化は勾配を安定化させ,損失景観の局所的な曲率に反することを示す。これによってSWAN (SGD with Whitening and Normalization) が成立し,任意の状態を保存する必要がなくなる。
論文参考訳（メタデータ） (2024-12-17T18:13:18Z)
HSR-Enhanced Sparse Attention Acceleration [19.776342074253435]
大規模言語モデル(LLM)における注意計算を高速化する新しい手法を提案する。我々は,従来のSoftmaxアテンションとReLUアテンションの両方において,アテンションメカニズム内の固有空間を利用する。提案手法は,Softmaxの注意を確実に無視できる誤差を導入するのみである。
論文参考訳（メタデータ） (2024-10-14T05:18:02Z)
A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。 HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。 HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文参考訳（メタデータ） (2024-06-14T08:32:45Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。 G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-05-24T08:00:00Z)
Simplifying and Understanding State Space Models with Diagonal Linear RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文参考訳（メタデータ） (2022-12-01T18:53:06Z)
Training Multi-Layer Over-Parametrized Neural Network in Subquadratic Time [12.348083977777833]
我々は、損失関数によって引き起こされる経験的リスクを最小限に抑えるために、多層超並列ニューラルネットワークを訓練する問題を考察する。本研究では,イテレーション毎のトレーニングコストの削減方法を示す。
論文参考訳（メタデータ） (2021-12-14T18:13:36Z)
Provably Efficient Reinforcement Learning for Discounted MDPs with Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文参考訳（メタデータ） (2020-06-23T17:08:54Z)
Backward Feature Correction: How Deep Learning Performs Deep (Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文参考訳（メタデータ） (2020-01-13T17:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。