Fugu-MT 論文翻訳(概要): Accelerating LLM Inference by Enabling Intermediate Layer Decoding

論文の概要: Accelerating LLM Inference by Enabling Intermediate Layer Decoding

arxiv url: http://arxiv.org/abs/2310.18581v1
Date: Sat, 28 Oct 2023 04:07:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 17:59:42.696722
Title: Accelerating LLM Inference by Enabling Intermediate Layer Decoding
Title（参考訳）: 中間層復号化によるLCM推論の高速化
Authors: Neeraj Varshney, Agneet Chatterjee, Mihir Parmar, Chitta Baral
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。テキストを効率よく生成するための中間層復号化を実現するために,LLMを命令する手法を提案する。
参考スコア（独自算出の注目度）: 62.13435256279566
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable performance across a wide variety of natural language tasks; however, their large size makes their inference slow and computationally expensive which poses a practical challenge for resource constrained real-world applications. Focusing on this problem, we propose to instruction tune LLMs in a way that enables intermediate layer decoding for efficiently generating text, but importantly without compromising the quality of the generation. Specifically, we instruction tune LLMs with additional explicit Losses from the InTermediate layErs (LITE) and show that it enables these layers to acquire 'good' generation ability without affecting the generation ability of the final layer. We perform 'dynamic confidence-based early exiting' at token level from the intermediate layers which improves the efficiency of inference while maintaining the generation quality. We conduct comprehensive experiments by instruction tuning LLaMA-2 models on the widely used Alpaca dataset and holistically evaluate on four different human-instruction test sets: Vicuna, WizardLM, Koala, and Self-Instruct. We show that 'dynamic early exiting' achieves consistent and considerable cost improvements (37.86% on average) while maintaining the generation quality of the responses. We further conduct a thorough analysis of the results over several important aspects, such as comparing the semantic similarity of the outputs and dissecting the efficiency improvements by comparing the number of tokens generated in the output. In summary, our work contributes to improving the efficiency of LLM inference while maintaining the generation quality, a crucial step en route to enabling their widespread adoption.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著なパフォーマンスを達成しているが、その大きなサイズは推論を遅く、計算的に高価にし、リソース制約のある実世界のアプリケーションに実用的な課題をもたらす。そこで本研究では,テキストを効率的に生成するための中間層復号化を実現する手法として,llmを命令する手法を提案する。具体的には、LITE (InTermediate layErs) から追加の明示的なLossesを付加した LLM を指導し、最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。生成品質を維持しながら推論の効率を向上させる中間層からトークンレベルで「動的信頼性に基づく早期退避」を行う。広範に使用されているalpacaデータセット上でllama-2モデルをインストラクションチューニングし,vicuna,wizardlm,koala,self-instructの4つの異なるヒトインストラクションテストセットについて規則的に評価した。我々は,「動的早期退避」は,応答の生成品質を維持しつつ,一貫したコスト改善(平均37.86%)を実現することを示す。さらに、出力の意味的類似性の比較や、出力で生成されたトークン数の比較による効率改善の解剖など、いくつかの重要な側面から結果を徹底的に分析する。まとめると,本研究は,LLM推論の効率向上に寄与し,生成品質を維持しつつ,その普及に向けた重要なステップとなる。

関連論文リスト

Hierarchical Verification of Speculative Beams for Accelerating LLM Inference [0.0]
階層的検証木(Hierarchical Verification Tree、HVT)は投機的ビーム復号化を高度に優先順位付けすることで再構成する新しいフレームワークである。 HVTは既存の投機的復号法を一貫して上回り、推論時間とエネルギー消費を大幅に削減する。発見は、大規模言語モデル推論を加速するための新しい方向として階層的検証戦略の可能性を強調している。
論文参考訳（メタデータ） (2025-07-30T02:58:03Z)
Semantic-Augmented Latent Topic Modeling with LLM-in-the-Loop [9.763247646329392]
Latent Dirichlet Allocation (LDA)は、文書コレクション内の抽象トピックを明らかにするために使用される顕著な生成確率モデルである。本稿では,Large Language Models (LLMs) を用いたトピックモデルの拡張の有効性を,初期化とポストコレクションの2つの重要なフェーズに統合することによって検討する。
論文参考訳（メタデータ） (2025-07-11T11:20:39Z)
Enhancing LLM Robustness to Perturbed Instructions: An Empirical Study [8.827173113748701]
ダウンストリーム性能を著しく低下させるタスク特化命令の文字・単語レベルの編集について検討した。平均的に、自己否定は、代替戦略よりも大幅に高いパフォーマンス向上を達成することが分かっています。
論文参考訳（メタデータ） (2025-04-03T16:17:56Z)
Leveraging the true depth of LLMs [46.81174316936993]
大規模言語モデルは高い計算要求を犠牲にして素晴らしい能力を示す。本研究では,事前学習したLLMの深度を,性能に悪影響を及ぼすことなく低減する方法をいくつか検討する。本稿では,これらを並列に評価可能なペアにグループ化することで,層間の疎結合を利用した新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-02-05T00:26:27Z)
Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。 LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文参考訳（メタデータ） (2025-01-24T08:18:56Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models [34.3296459569307]
大規模言語モデル(LLM)は目覚ましい能力を示しているが、その出力は信頼できないことや、事実的に間違っていることがある。本稿では,LLMの真性を高める新しいデコードフレームワークであるSelf Logits Evolution Decoding(SLED)を紹介する。既存の復号法と比較して,SLEDは実写精度を最大20%向上することを示す。
論文参考訳（メタデータ） (2024-11-01T17:33:34Z)
Strategic Optimization and Challenges of Large Language Models in Object-Oriented Programming [0.0]
本研究ではオブジェクト指向プログラミング(OOP)フレームワークにおけるメソッドレベルのコード生成に焦点を当てる。我々は,プロンプトにおける文脈情報の範囲を変化させる実験を考案した。その結果,メソッド呼び出しの詳細が豊富なプロンプトが最もコスト効率が高いことが示唆された。
論文参考訳（メタデータ） (2024-08-27T07:44:16Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Enhancing Reinforcement Learning with Label-Sensitive Reward for Natural Language Understanding [11.470005425117371]
ラベルセンシティブ・リワード(RLLR)で強化された新しい強化学習フレームワークを提案する。提案手法は,RL中におけるニュアンス付きラベルセンシティブな意味的特徴を適切に捉え,自然言語の理解を向上させることを目的としている。 8つのタスクにまたがる5つの多様な基礎モデルの実験は、有望な結果を示している。
論文参考訳（メタデータ） (2024-05-30T07:19:31Z)
Prompt Perturbation Consistency Learning for Robust Language Models [47.021022978847036]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的なパフォーマンスを示している。微調整を十分に行うと,識別モデルに匹敵するIC-SF性能が得られることを示す。クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。
論文参考訳（メタデータ） (2024-02-24T15:00:58Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。