論文の概要: Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE
- arxiv url: http://arxiv.org/abs/2310.18581v2
- Date: Tue, 7 Nov 2023 05:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:55:38.095019
- Title: Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE
- Title(参考訳): LITEを用いた命令チューニングによる中間層デコーディングによるLLaMA推論の高速化
- Authors: Neeraj Varshney, Agneet Chatterjee, Mihir Parmar, Chitta Baral
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
- 参考スコア(独自算出の注目度): 62.13435256279566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance across a
wide variety of natural language tasks; however, their large size makes their
inference slow and computationally expensive. Focusing on this problem, we
propose to instruction tune LLMs with additional explicit losses from the
intermediate layers (LITE) and show that it enables these layers to acquire
'good' generation ability without affecting the generation ability of the final
layer. We perform 'dynamic confidence-based early exiting' at token level from
the intermediate layers which improves the efficiency of text generation
without compromising the quality of the generation. We conduct comprehensive
experiments by instruction tuning LLaMA-2 models on the Alpaca dataset and
holistically evaluate on four different human-instruction test sets. We show
that dynamic early exiting achieves consistent and considerable inference
computation cost improvements (37.86% for 7B and 46.35% for 13B model) while
maintaining the generation quality of the responses. We further conduct a
thorough analysis of the results over several important aspects, such as
comparing the semantic similarity of the outputs and dissecting the efficiency
improvements by comparing the number of tokens generated in the output. In
summary, our work contributes to improving the efficiency of LLM inference
while maintaining the generation quality, a crucial step en route to enabling
their widespread adoption.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を達成しているが、その大きなサイズは推論を遅く、計算的に高価にする。
この問題に焦点をあて,中間層(LITE)から余分な損失を伴って調律LLMを指導し,最終層の生成能力に影響を与えることなく,これらの層が「良い」生成能力を得ることができることを示す。
中間層からトークンレベルで「動的信頼度に基づく早期終了」を行い、生成の品質を損なうことなく、テキスト生成の効率を向上させる。
我々は,Alpacaデータセット上でLLaMA-2モデルをチューニングし,4つの異なる人体教育試験セットに対して全体的評価を行う。
動的早期退避は、応答の生成品質を維持しつつ、一貫した推論計算コストの改善(7Bが37.86%、13Bモデルが46.35%)を達成することを示す。
さらに、出力の意味的類似性の比較や、出力で生成されたトークン数の比較による効率改善の解剖など、いくつかの重要な側面から結果を徹底的に分析する。
まとめると,本研究は,LLM推論の効率向上に寄与し,生成品質を維持しつつ,その普及に向けた重要なステップとなる。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models [34.3296459569307]
大規模言語モデル(LLM)は目覚ましい能力を示しているが、その出力は信頼できないことや、事実的に間違っていることがある。
本稿では,LLMの真性を高める新しいデコードフレームワークであるSelf Logits Evolution Decoding(SLED)を紹介する。
既存の復号法と比較して,SLEDは実写精度を最大20%向上することを示す。
論文 参考訳(メタデータ) (2024-11-01T17:33:34Z) - Strategic Optimization and Challenges of Large Language Models in Object-Oriented Programming [0.0]
本研究ではオブジェクト指向プログラミング(OOP)フレームワークにおけるメソッドレベルのコード生成に焦点を当てる。
我々は,プロンプトにおける文脈情報の範囲を変化させる実験を考案した。
その結果,メソッド呼び出しの詳細が豊富なプロンプトが最もコスト効率が高いことが示唆された。
論文 参考訳(メタデータ) (2024-08-27T07:44:16Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Enhancing Reinforcement Learning with Label-Sensitive Reward for Natural Language Understanding [11.470005425117371]
ラベルセンシティブ・リワード(RLLR)で強化された新しい強化学習フレームワークを提案する。
提案手法は,RL中におけるニュアンス付きラベルセンシティブな意味的特徴を適切に捉え,自然言語の理解を向上させることを目的としている。
8つのタスクにまたがる5つの多様な基礎モデルの実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2024-05-30T07:19:31Z) - Prompt Perturbation Consistency Learning for Robust Language Models [47.021022978847036]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的なパフォーマンスを示している。
微調整を十分に行うと,識別モデルに匹敵するIC-SF性能が得られることを示す。
クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。
論文 参考訳(メタデータ) (2024-02-24T15:00:58Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。