論文の概要: Accelerating LLM Inference by Enabling Intermediate Layer Decoding
- arxiv url: http://arxiv.org/abs/2310.18581v1
- Date: Sat, 28 Oct 2023 04:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:59:42.696722
- Title: Accelerating LLM Inference by Enabling Intermediate Layer Decoding
- Title(参考訳): 中間層復号化によるLCM推論の高速化
- Authors: Neeraj Varshney, Agneet Chatterjee, Mihir Parmar, Chitta Baral
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
テキストを効率よく生成するための中間層復号化を実現するために,LLMを命令する手法を提案する。
- 参考スコア(独自算出の注目度): 62.13435256279566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance across a
wide variety of natural language tasks; however, their large size makes their
inference slow and computationally expensive which poses a practical challenge
for resource constrained real-world applications. Focusing on this problem, we
propose to instruction tune LLMs in a way that enables intermediate layer
decoding for efficiently generating text, but importantly without compromising
the quality of the generation. Specifically, we instruction tune LLMs with
additional explicit Losses from the InTermediate layErs (LITE) and show that it
enables these layers to acquire 'good' generation ability without affecting the
generation ability of the final layer. We perform 'dynamic confidence-based
early exiting' at token level from the intermediate layers which improves the
efficiency of inference while maintaining the generation quality. We conduct
comprehensive experiments by instruction tuning LLaMA-2 models on the widely
used Alpaca dataset and holistically evaluate on four different
human-instruction test sets: Vicuna, WizardLM, Koala, and Self-Instruct. We
show that 'dynamic early exiting' achieves consistent and considerable cost
improvements (37.86% on average) while maintaining the generation quality of
the responses. We further conduct a thorough analysis of the results over
several important aspects, such as comparing the semantic similarity of the
outputs and dissecting the efficiency improvements by comparing the number of
tokens generated in the output. In summary, our work contributes to improving
the efficiency of LLM inference while maintaining the generation quality, a
crucial step en route to enabling their widespread adoption.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著なパフォーマンスを達成しているが、その大きなサイズは推論を遅く、計算的に高価にし、リソース制約のある実世界のアプリケーションに実用的な課題をもたらす。
そこで本研究では,テキストを効率的に生成するための中間層復号化を実現する手法として,llmを命令する手法を提案する。
具体的には、LITE (InTermediate layErs) から追加の明示的なLossesを付加した LLM を指導し、最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
生成品質を維持しながら推論の効率を向上させる中間層からトークンレベルで「動的信頼性に基づく早期退避」を行う。
広範に使用されているalpacaデータセット上でllama-2モデルをインストラクションチューニングし,vicuna,wizardlm,koala,self-instructの4つの異なるヒトインストラクションテストセットについて規則的に評価した。
我々は,「動的早期退避」は,応答の生成品質を維持しつつ,一貫したコスト改善(平均37.86%)を実現することを示す。
さらに、出力の意味的類似性の比較や、出力で生成されたトークン数の比較による効率改善の解剖など、いくつかの重要な側面から結果を徹底的に分析する。
まとめると,本研究は,LLM推論の効率向上に寄与し,生成品質を維持しつつ,その普及に向けた重要なステップとなる。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models [34.3296459569307]
大規模言語モデル(LLM)は目覚ましい能力を示しているが、その出力は信頼できないことや、事実的に間違っていることがある。
本稿では,LLMの真性を高める新しいデコードフレームワークであるSelf Logits Evolution Decoding(SLED)を紹介する。
既存の復号法と比較して,SLEDは実写精度を最大20%向上することを示す。
論文 参考訳(メタデータ) (2024-11-01T17:33:34Z) - Strategic Optimization and Challenges of Large Language Models in Object-Oriented Programming [0.0]
本研究ではオブジェクト指向プログラミング(OOP)フレームワークにおけるメソッドレベルのコード生成に焦点を当てる。
我々は,プロンプトにおける文脈情報の範囲を変化させる実験を考案した。
その結果,メソッド呼び出しの詳細が豊富なプロンプトが最もコスト効率が高いことが示唆された。
論文 参考訳(メタデータ) (2024-08-27T07:44:16Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Enhancing Reinforcement Learning with Label-Sensitive Reward for Natural Language Understanding [11.470005425117371]
ラベルセンシティブ・リワード(RLLR)で強化された新しい強化学習フレームワークを提案する。
提案手法は,RL中におけるニュアンス付きラベルセンシティブな意味的特徴を適切に捉え,自然言語の理解を向上させることを目的としている。
8つのタスクにまたがる5つの多様な基礎モデルの実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2024-05-30T07:19:31Z) - Prompt Perturbation Consistency Learning for Robust Language Models [47.021022978847036]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的なパフォーマンスを示している。
微調整を十分に行うと,識別モデルに匹敵するIC-SF性能が得られることを示す。
クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。
論文 参考訳(メタデータ) (2024-02-24T15:00:58Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。