論文の概要: Accelerating LLM Inference by Enabling Intermediate Layer Decoding
- arxiv url: http://arxiv.org/abs/2310.18581v1
- Date: Sat, 28 Oct 2023 04:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:59:42.696722
- Title: Accelerating LLM Inference by Enabling Intermediate Layer Decoding
- Title(参考訳): 中間層復号化によるLCM推論の高速化
- Authors: Neeraj Varshney, Agneet Chatterjee, Mihir Parmar, Chitta Baral
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
テキストを効率よく生成するための中間層復号化を実現するために,LLMを命令する手法を提案する。
- 参考スコア(独自算出の注目度): 62.13435256279566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance across a
wide variety of natural language tasks; however, their large size makes their
inference slow and computationally expensive which poses a practical challenge
for resource constrained real-world applications. Focusing on this problem, we
propose to instruction tune LLMs in a way that enables intermediate layer
decoding for efficiently generating text, but importantly without compromising
the quality of the generation. Specifically, we instruction tune LLMs with
additional explicit Losses from the InTermediate layErs (LITE) and show that it
enables these layers to acquire 'good' generation ability without affecting the
generation ability of the final layer. We perform 'dynamic confidence-based
early exiting' at token level from the intermediate layers which improves the
efficiency of inference while maintaining the generation quality. We conduct
comprehensive experiments by instruction tuning LLaMA-2 models on the widely
used Alpaca dataset and holistically evaluate on four different
human-instruction test sets: Vicuna, WizardLM, Koala, and Self-Instruct. We
show that 'dynamic early exiting' achieves consistent and considerable cost
improvements (37.86% on average) while maintaining the generation quality of
the responses. We further conduct a thorough analysis of the results over
several important aspects, such as comparing the semantic similarity of the
outputs and dissecting the efficiency improvements by comparing the number of
tokens generated in the output. In summary, our work contributes to improving
the efficiency of LLM inference while maintaining the generation quality, a
crucial step en route to enabling their widespread adoption.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著なパフォーマンスを達成しているが、その大きなサイズは推論を遅く、計算的に高価にし、リソース制約のある実世界のアプリケーションに実用的な課題をもたらす。
そこで本研究では,テキストを効率的に生成するための中間層復号化を実現する手法として,llmを命令する手法を提案する。
具体的には、LITE (InTermediate layErs) から追加の明示的なLossesを付加した LLM を指導し、最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
生成品質を維持しながら推論の効率を向上させる中間層からトークンレベルで「動的信頼性に基づく早期退避」を行う。
広範に使用されているalpacaデータセット上でllama-2モデルをインストラクションチューニングし,vicuna,wizardlm,koala,self-instructの4つの異なるヒトインストラクションテストセットについて規則的に評価した。
我々は,「動的早期退避」は,応答の生成品質を維持しつつ,一貫したコスト改善(平均37.86%)を実現することを示す。
さらに、出力の意味的類似性の比較や、出力で生成されたトークン数の比較による効率改善の解剖など、いくつかの重要な側面から結果を徹底的に分析する。
まとめると,本研究は,LLM推論の効率向上に寄与し,生成品質を維持しつつ,その普及に向けた重要なステップとなる。
関連論文リスト
- Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。
ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。
実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文 参考訳(メタデータ) (2024-04-10T16:11:09Z) - Exploring LLMs as a Source of Targeted Synthetic Textual Data to Minimize High Confidence Misclassifications [9.982616173090264]
本研究では,データ拡張のための大規模言語モデル (LLM) の利用を,分類タスク中に高い信頼度で誤った予測を行うNLPモデルの問題に対する潜在的な解決策として検討する。
緩和のために、人間またはLLMは、高い信頼性の誤分類の自然言語特性を提供し、合成データを生成し、トレーニングセットを拡張するのに使用される。
本研究では,3つの分類課題に対するアプローチを広範囲に評価し,信頼性の高い誤分類の数を減らし,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - Prompt Perturbation Consistency Learning for Robust Language Models [47.021022978847036]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的なパフォーマンスを示している。
微調整を十分に行うと,識別モデルに匹敵するIC-SF性能が得られることを示す。
クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。
論文 参考訳(メタデータ) (2024-02-24T15:00:58Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。