論文の概要: Compressing Context to Enhance Inference Efficiency of Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.06201v1
- Date: Mon, 9 Oct 2023 23:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 21:15:15.763467
- Title: Compressing Context to Enhance Inference Efficiency of Large Language
Models
- Title(参考訳): 大規模言語モデルの推論効率を高めるためのコンテキスト圧縮
- Authors: Yucheng Li, Bo Dong, Chenghua Lin, Frank Guerin
- Abstract要約: 本稿では,大規模言語モデル(LLM)の推論効率を向上させるための選択文脈法を提案する。
我々は、arXiv論文、ニュース記事、長い会話など、長いコンテキスト処理を必要とする共通のデータソースを用いて、アプローチをテストする。
実験の結果,Selective Contextはメモリコストを大幅に削減し,生成遅延を低減させることがわかった。
- 参考スコア(独自算出の注目度): 26.75216730927996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieved remarkable performance across various
tasks. However, they face challenges in managing long documents and extended
conversations, due to significantly increased computational requirements, both
in memory and inference time, and potential context truncation when the input
exceeds the LLM's fixed context length. This paper proposes a method called
Selective Context that enhances the inference efficiency of LLMs by identifying
and pruning redundancy in the input context to make the input more compact. We
test our approach using common data sources requiring long context processing:
arXiv papers, news articles, and long conversations, on tasks of summarisation,
question answering, and response generation. Experimental results show that
Selective Context significantly reduces memory cost and decreases generation
latency while maintaining comparable performance compared to that achieved when
full context is used. Specifically, we achieve a 50\% reduction in context
cost, resulting in a 36\% reduction in inference memory usage and a 32\%
reduction in inference time, while observing only a minor drop of .023 in
BERTscore and .038 in faithfulness on four downstream applications, indicating
that our method strikes a good balance between efficiency and performance.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なタスクで顕著な性能を達成した。
しかし、メモリと推論時間の両方において計算要求が大幅に増加し、入力がLLMの固定されたコンテキスト長を超える場合の潜在的なコンテキスト切り離しにより、長いドキュメントの管理や会話の延長が困難となる。
本稿では,入力コンテキストの冗長性を同定し,よりコンパクトにすることで,LLMの推論効率を向上させるSelective Contextという手法を提案する。
我々は、要約、質問応答、応答生成といったタスクに基づいて、arXiv論文、ニュース記事、長い会話を必要とする一般的なデータソースを用いてアプローチをテストする。
実験結果から,Selective Contextはメモリコストを大幅に削減し,完全なコンテキストを使用する場合と同等の性能を維持しながら生成遅延を低減することがわかった。
具体的には,4つの下流アプリケーションにおいて .023 が bertscore で,.038 が .023 が .038 が わずかに減少するのを観察しながら,推論メモリ使用率を 36 % 削減し,推論時間を 32 % 削減するという,コンテキストコストの 50 % 削減を実現し,効率と性能のバランスが良好であることを示す。
関連論文リスト
- LLoCO: Learning Long Contexts Offline [63.3458260335454]
LLoCOは,LoRAを用いた文脈圧縮,検索,パラメータ効率の微調整を組み合わせた手法である。
我々は,LLoCOの長文質問応答データセットに対するアプローチを検証し,LLoCOが文脈内学習を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大規模言語モデル(LLM)のための新しいRAGプロンプト手法を提案する。
重ね合わせプロンプトにより、LLMは入力文書を並列にプロンプトパスで処理でき、無関係と判断された後にパスを破棄する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of
LLMs with Self-Information-Based Content Filtering [4.1372815372396525]
本稿では,少ない情報内容のフィルタリングに自己情報を利用するtextitSelective Contextを提案する。
我々は,複数のデータソースにまたがる要約と質問応答のタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-24T13:55:47Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。