Fugu-MT 論文翻訳(概要): Compressing Context to Enhance Inference Efficiency of Large Language Models

論文の概要: Compressing Context to Enhance Inference Efficiency of Large Language Models

arxiv url: http://arxiv.org/abs/2310.06201v1
Date: Mon, 9 Oct 2023 23:03:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 21:15:15.763467
Title: Compressing Context to Enhance Inference Efficiency of Large Language Models
Title（参考訳）: 大規模言語モデルの推論効率を高めるためのコンテキスト圧縮
Authors: Yucheng Li, Bo Dong, Chenghua Lin, Frank Guerin
Abstract要約: 本稿では,大規模言語モデル(LLM)の推論効率を向上させるための選択文脈法を提案する。我々は、arXiv論文、ニュース記事、長い会話など、長いコンテキスト処理を必要とする共通のデータソースを用いて、アプローチをテストする。実験の結果,Selective Contextはメモリコストを大幅に削減し,生成遅延を低減させることがわかった。
参考スコア（独自算出の注目度）: 26.75216730927996
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) achieved remarkable performance across various tasks. However, they face challenges in managing long documents and extended conversations, due to significantly increased computational requirements, both in memory and inference time, and potential context truncation when the input exceeds the LLM's fixed context length. This paper proposes a method called Selective Context that enhances the inference efficiency of LLMs by identifying and pruning redundancy in the input context to make the input more compact. We test our approach using common data sources requiring long context processing: arXiv papers, news articles, and long conversations, on tasks of summarisation, question answering, and response generation. Experimental results show that Selective Context significantly reduces memory cost and decreases generation latency while maintaining comparable performance compared to that achieved when full context is used. Specifically, we achieve a 50\% reduction in context cost, resulting in a 36\% reduction in inference memory usage and a 32\% reduction in inference time, while observing only a minor drop of .023 in BERTscore and .038 in faithfulness on four downstream applications, indicating that our method strikes a good balance between efficiency and performance.
Abstract（参考訳）: 大規模言語モデル (LLM) は様々なタスクで顕著な性能を達成した。しかし、メモリと推論時間の両方において計算要求が大幅に増加し、入力がLLMの固定されたコンテキスト長を超える場合の潜在的なコンテキスト切り離しにより、長いドキュメントの管理や会話の延長が困難となる。本稿では,入力コンテキストの冗長性を同定し,よりコンパクトにすることで,LLMの推論効率を向上させるSelective Contextという手法を提案する。我々は、要約、質問応答、応答生成といったタスクに基づいて、arXiv論文、ニュース記事、長い会話を必要とする一般的なデータソースを用いてアプローチをテストする。実験結果から,Selective Contextはメモリコストを大幅に削減し,完全なコンテキストを使用する場合と同等の性能を維持しながら生成遅延を低減することがわかった。具体的には,4つの下流アプリケーションにおいて .023 が bertscore で,.038 が .023 が .038 がわずかに減少するのを観察しながら,推論メモリ使用率を 36 % 削減し,推論時間を 32 % 削減するという,コンテキストコストの 50 % 削減を実現し,効率と性能のバランスが良好であることを示す。

関連論文リスト

ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。 RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文参考訳（メタデータ） (2025-06-01T23:49:14Z)
Semantic Caching of Contextual Summaries for Efficient Question-Answering with Language Models [11.012474205717178]
大規模言語モデル(LLM)は、リアルタイムの質問応答と検索拡張生成のために、エッジとクラウドプラットフォームにデプロイされることが増えている。本稿では,文脈要約を保存・再利用するためのセマンティックキャッシング手法を提案する。本手法は,全文書処理に匹敵する解の精度を維持しつつ,冗長計算を最大50～60%削減する。
論文参考訳（メタデータ） (2025-05-16T14:04:31Z)
InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation [57.310236384112834]
In-context Learning (ICL) は、大規模言語モデル(LLM)において重要であるが、その有効性は有限コンテキストウィンドウによって制約される。本稿では,LLMにおけるコンテキストとパラメータを,短期記憶と長期記憶に並列化するフレームワークであるInfiniteICLを紹介する。提案手法は,コンテキスト長を90%削減し,フルコンテキストプロンプトの平均性能を103%向上することを示した。
論文参考訳（メタデータ） (2025-04-02T13:15:44Z)
END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文参考訳（メタデータ） (2025-02-26T08:07:17Z)
Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。本稿では,LCLM検索に適した新しい圧縮手法を提案する。また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文参考訳（メタデータ） (2024-12-24T07:30:55Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文参考訳（メタデータ） (2024-11-08T19:27:42Z)
Enhancing and Accelerating Large Language Models via Instruction-Aware Contextual Compression [7.673616185468932]
大規模言語モデルに無関係なコンテキストを提供すると、応答が低下し、推論遅延が増加し、コストが上昇する。本稿では,少ない情報内容のフィルタリングを行うインストラクション・アウェア・コンテクスト圧縮手法を提案する。 Instruction-Aware Contextual Compressionはメモリ消費を著しく減らし、生成遅延を最小化する。
論文参考訳（メタデータ） (2024-08-28T02:31:15Z)
QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。 IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文参考訳（メタデータ） (2024-08-20T02:44:45Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文参考訳（メタデータ） (2024-06-19T15:14:55Z)
Recurrent Context Compression: Efficiently Expanding the Context Window of LLM [22.595457889113668]
この研究はRecurrent Context Compression (RCC)と呼ばれる手法を導入し、Transformerベースの大規模言語モデル(LLM)のコンテキストウィンドウ長を効率的に拡張する。我々は,複数のタスクに対するアプローチを検証し,BLEU4スコアが0.95に近いテキスト再構成タスクで最大32倍の圧縮率を実現し,シーケンス長1Mのパスキー検索タスクで約100%の精度を実現した。
論文参考訳（メタデータ） (2024-06-10T08:50:59Z)
LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。 LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文参考訳（メタデータ） (2024-04-11T17:57:22Z)
Extending Context Window of Large Language Models via Semantic Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。本稿では,テキストを6～8倍長大に一般化するセマンティック圧縮手法を提案する。
論文参考訳（メタデータ） (2023-12-15T07:04:33Z)
Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文参考訳（メタデータ） (2023-10-02T18:52:35Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of LLMs with Self-Information-Based Content Filtering [4.1372815372396525]
本稿では,少ない情報内容のフィルタリングに自己情報を利用するtextitSelective Contextを提案する。我々は,複数のデータソースにまたがる要約と質問応答のタスクに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-24T13:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。