論文の概要: QUITO: Accelerating Long-Context Reasoning through Query-Guided Context Compression
- arxiv url: http://arxiv.org/abs/2408.00274v1
- Date: Thu, 1 Aug 2024 04:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-04 21:45:24.460952
- Title: QUITO: Accelerating Long-Context Reasoning through Query-Guided Context Compression
- Title(参考訳): QUITO: クエリ誘導コンテキスト圧縮によるロングコンテキスト推論の高速化
- Authors: Wenshan Wang, Yihang Wang, Yixing Fan, Huaming Liao, Jiafeng Guo,
- Abstract要約: 本稿では,新しいQuery-gUIded aTtention cOmpression (QUITO)法を提案する。
具体的には,質問に対する文脈の注意分布を計算するためにトリガートークンを用いる。
本研究では,2つの広く利用されているデータセットであるNaturalQuestionsとASQAを用いてQUITOを評価する。
- 参考スコア(独自算出の注目度): 37.08536175557748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) capabilities are foundational to the success of large language models (LLMs). Recently, context compression has attracted growing interest since it can largely reduce reasoning complexities and computation costs of LLMs. In this paper, we introduce a novel Query-gUIded aTtention cOmpression (QUITO) method, which leverages attention of the question over the contexts to filter useless information. Specifically, we take a trigger token to calculate the attention distribution of the context in response to the question. Based on the distribution, we propose three different filtering methods to satisfy the budget constraints of the context length. We evaluate the QUITO using two widely-used datasets, namely, NaturalQuestions and ASQA. Experimental results demonstrate that QUITO significantly outperforms established baselines across various datasets and downstream LLMs, underscoring its effectiveness. Our code is available at https://github.com/Wenshansilvia/attention_compressor.
- Abstract(参考訳): In-context Learning (ICL) は、大規模言語モデル(LLM)の成功の基礎となる。
近年,LLMの複雑度や計算コストを大幅に削減できるため,文脈圧縮への関心が高まっている。
本稿では,文脈に関する問題に注意を払って無駄な情報をフィルタリングする,新しいQuery-gUIded aTtention cOmpression(QUITO)手法を提案する。
具体的には,質問に対する文脈の注意分布を計算するためにトリガートークンを用いる。
分布に基づいて,コンテキスト長の予算制約を満たす3つの異なるフィルタリング手法を提案する。
本研究では,2つの広く利用されているデータセットであるNaturalQuestionsとASQAを用いてQUITOを評価する。
実験の結果,QUITO は様々なデータセットや下流 LLM で確立されたベースラインを著しく上回り,その有効性を実証した。
私たちのコードはhttps://github.com/Wenshansilvia/attention_compressor.comから入手可能です。
関連論文リスト
- Long-context Non-factoid Question Answering in Indic Languages [39.66936316245065]
質問回答タスクは、与えられたコンテキストから回答を抽出する。
長期のコンテキストは、自己認識機構の複雑さのために課題を引き起こす。
Indic言語におけるQA性能向上のための文脈ショートニング手法について検討した。
論文 参考訳(メタデータ) (2025-04-18T10:43:21Z) - END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - LCIRC: A Recurrent Compression Approach for Efficient Long-form Context and Query Dependent Modeling in LLMs [10.84210988032097]
本稿では,長文列をモデルの長さ制限を超えて効率的に処理できるLCIRC(Long-form Context Injection with Recurrent Compression)を提案する。
また、クエリ依存コンテキストモデリングを導入し、クエリ関連情報を選択的に圧縮し、モデルが最も関連するコンテンツを保持することを保証する。
論文 参考訳(メタデータ) (2025-02-10T04:02:18Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。
このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。
私たちのコードはhttps://github.com/OceannTwT/LQCA.comで公開されています。
論文 参考訳(メタデータ) (2024-10-02T15:39:55Z) - Discovering the Gems in Early Layers: Accelerating Long-Context LLMs
with 1000x Input Token Reduction [47.38471103190534]
大きな言語モデル(LLM)は、長いコンテキスト入力を扱う際、顕著な能力を示してきたが、これは計算リソースとレイテンシの増大によるものである。
本研究では,LLM推論を高速化し,GPUメモリ使用量を削減するために,長期的ボトルネックに対する新たなアプローチを提案する。
本稿では,LLMの初期レイヤをフィルタとして,入力トークンの選択と圧縮を行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-25T23:14:47Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference [16.830389144259584]
文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。
鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。
提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
論文 参考訳(メタデータ) (2024-09-02T13:02:51Z) - QUITO-X: An Information Bottleneck-based Compression Algorithm with Cross-Attention [37.25151458038128]
本稿では,メトリクスが要求する特性を調べるために,情報ボトルネック理論を導入する。
これに影響を受け、エンコーダ・デコーダアーキテクチャにおけるクロスアテンションを新しいメトリクスとして使用します。
我々の単純な手法は、レイテンシーの低い小さなモデルでは大幅に性能が向上する。
論文 参考訳(メタデータ) (2024-08-20T02:44:45Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of
LLMs with Self-Information-Based Content Filtering [4.1372815372396525]
本稿では,少ない情報内容のフィルタリングに自己情報を利用するtextitSelective Contextを提案する。
我々は,複数のデータソースにまたがる要約と質問応答のタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-24T13:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。