論文の概要: Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy
- arxiv url: http://arxiv.org/abs/2404.06954v1
- Date: Wed, 10 Apr 2024 12:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 14:40:47.752789
- Title: Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy
- Title(参考訳): 階層スキーピング戦略を統一した大規模言語モデルにおける推論の高速化
- Authors: Yijin Liu, Fandong Meng, Jie Zhou,
- Abstract要約: 動的計算手法は、いくつかの計算層をスキップすることで、Large Language Models (LLM) に対する顕著な加速を示す。
対象の高速化率のみに基づいて計算をスキップする層数を選択する統一層スキーッピング戦略を提案する。
機械翻訳とテキスト要約という2つの共通タスクの実験結果は、目標速度比が与えられた場合、統一層スキーピング戦略は推論性能と実際のモデルスループットの両方を著しく向上させることを示している。
- 参考スコア(独自算出の注目度): 67.45518210171024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, dynamic computation methods have shown notable acceleration for Large Language Models (LLMs) by skipping several layers of computations through elaborate heuristics or additional predictors. However, in the decoding process of existing approaches, different samples are assigned different computational budgets, which cannot guarantee a stable and precise acceleration effect. Furthermore, existing approaches generally skip multiple contiguous layers at the bottom or top of the layers, leading to a drastic change in the model's layer-wise representations, and thus a consequent performance degeneration. Therefore, we propose a Unified Layer Skipping strategy, which selects the number of layers to skip computation based solely on the target speedup ratio, and then skips the corresponding number of intermediate layer computations in a balanced manner. Since the Unified Layer Skipping strategy is independent of input samples, it naturally supports popular acceleration techniques such as batch decoding and KV caching, thus demonstrating more practicality for real-world applications. Experimental results on two common tasks, i.e., machine translation and text summarization, indicate that given a target speedup ratio, the Unified Layer Skipping strategy significantly enhances both the inference performance and the actual model throughput over existing dynamic approaches.
- Abstract(参考訳): 近年,大規模言語モデル (LLMs) に対する動的計算手法が注目されている。
しかし、既存の手法の復号過程では、異なるサンプルが異なる計算予算に割り当てられており、安定かつ正確な加速効果を保証できない。
さらに、既存のアプローチは一般的に、レイヤの下部または上部の複数の連続したレイヤをスキップし、モデルのレイヤワイド表現に劇的な変化をもたらし、その結果、連続したパフォーマンス劣化を引き起こす。
そこで本研究では,目標速度比のみに基づいて計算をスキップするレイヤ数を選択し,対応する中間層計算数をバランスよくスキップするUnified Layer Skipping戦略を提案する。
Unified Layer Skipping戦略は入力サンプルとは独立しているため、バッチデコードやKVキャッシュといった一般的なアクセラレーション技術が自然にサポートされており、現実世界のアプリケーションにとってより実用的なものとなっている。
機械翻訳とテキスト要約という2つの共通タスクの実験結果は、目標速度比が与えられた場合、Unified Layer Skipping戦略は既存の動的アプローチよりも推論性能と実際のモデルのスループットを著しく向上させることを示している。
関連論文リスト
- Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - Towards Differentiable Multilevel Optimization: A Gradient-Based Approach [1.6114012813668932]
本稿では,多レベル最適化のための新しい勾配に基づくアプローチを提案する。
本手法は解の精度と収束速度を両立させながら計算複雑性を著しく低減する。
私たちの知る限りでは、これは暗黙の微分の一般的なバージョンを提供する最初のアルゴリズムの1つである。
論文 参考訳(メタデータ) (2024-10-15T06:17:59Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - You Need Multiple Exiting: Dynamic Early Exiting for Accelerating
Unified Vision Language Model [37.24203191658052]
大規模なTransformerモデルは、統一アーキテクチャで様々な下流視覚言語タスクに大幅な改善をもたらす。
性能改善は、モデルサイズが増大し、推論速度が遅くなり、厳格化のコストが増大する。
本稿では,エンコーダとデコーダのレイヤを動的にスキップできる統一視覚言語モデルのための新しい早期終了戦略を提案する。
論文 参考訳(メタデータ) (2022-11-21T02:32:25Z) - Layer-Wise Partitioning and Merging for Efficient and Scalable Deep
Learning [16.38731019298993]
我々は、より優れたトレーニング性能を提供するために、新しいレイヤワイドパーティショニングとマージ、前方および後方パス並列フレームワークを提案している。
実使用事例を実験的に評価したところ,提案手法は訓練速度において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-22T11:47:34Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。