論文の概要: QUITO-X: An Information Bottleneck-based Compression Algorithm with Cross-Attention
- arxiv url: http://arxiv.org/abs/2408.10497v1
- Date: Tue, 20 Aug 2024 02:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:24:37.142350
- Title: QUITO-X: An Information Bottleneck-based Compression Algorithm with Cross-Attention
- Title(参考訳): QUITO-X:クロスアテンションを用いた情報ボトルネック型圧縮アルゴリズム
- Authors: Yihang Wang, Xu Huang, Bowen Tian, Yixing Fan, Jiafeng Guo,
- Abstract要約: 本稿では,メトリクスが要求する特性を調べるために,情報ボトルネック理論を導入する。
これに影響を受け、エンコーダ・デコーダアーキテクチャにおけるクロスアテンションを新しいメトリクスとして使用します。
我々の単純な手法は、レイテンシーの低い小さなモデルでは大幅に性能が向上する。
- 参考スコア(独自算出の注目度): 37.25151458038128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative LLM have achieved significant success in various industrial tasks and can effectively adapt to vertical domains and downstream tasks through ICL. However, with tasks becoming increasingly complex, the context length required by ICL is also getting longer, and two significant issues arise: (i) The excessively long context leads to high costs and inference delays. (ii) A substantial amount of task-irrelevant information introduced by long contexts exacerbates the "lost in the middle" problem. Recently, compressing prompts by removing tokens according to some metric obtained from some causal language models, such as llama-7b, has emerged as an effective approach to mitigate these issues. However, the metric used by prior method such as self-information or PPL do not fully align with the objective of distinuishing the most important tokens when conditioning on query. In this work, we introduce information bottleneck theory to carefully examine the properties required by the metric. Inspired by this, we use cross-attention in encoder-decoder architecture as a new metric. Our simple method leads to significantly better performance in smaller models with lower latency. We evaluate our method on four datasets: DROP, CoQA, SQuAD, and Quoref. The experimental results show that, while maintaining the same performance, our compression rate can improve by nearly 25% over previous SOTA. Remarkably, in experiments where 25% of the tokens are removed, our model's EM score for answers sometimes even exceeds that of the control group using uncompressed text as context.
- Abstract(参考訳): 生成LDMは様々な産業タスクにおいて大きな成功を収めており、ICLを介して垂直領域や下流タスクに効果的に適応することができる。
しかし、タスクが複雑化するにつれて、ICLが要求するコンテキスト長も長くなり、2つの重大な問題が発生する。
i)過度に長いコンテキストは、コストと推論の遅延につながる。
二 長期的文脈で導入したタスク非関連情報が「中間のロスト」問題を悪化させる。
近年、ラマ7bのような因果関係言語モデルから得られた指標に従ってトークンを除去して圧縮プロンプトが、これらの問題を緩和するための効果的なアプローチとして出現している。
しかし、自己情報やPPLといった事前の手法で使われるメトリクスは、クエリの条件付け時に最も重要なトークンを廃止する目的と完全に一致しない。
本研究では,計量が必要とする特性を慎重に検討するために,情報ボトルネック理論を導入する。
これに影響を受け、エンコーダ・デコーダアーキテクチャにおけるクロスアテンションを新しいメトリクスとして使用します。
我々の単純な手法は、レイテンシの低い小さなモデルでは、大幅に性能が向上する。
DROP, CoQA, SQuAD, Quoref の4つのデータセットを用いて本手法の評価を行った。
実験の結果,同じ性能を維持しながら,従来のSOTAよりも25%近く圧縮速度が向上することがわかった。
興味深いことに、25%のトークンが取り除かれた実験では、私たちのモデルのEMスコアは、文脈として圧縮されていないテキストを使用して制御グループのスコアを超えることがある。
関連論文リスト
- Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。
長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。
次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文 参考訳(メタデータ) (2024-11-08T19:27:42Z) - Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability [67.77534983324229]
本稿では,非形式的トークンを識別する統一圧縮法を開発するために,大規模言語モデルの能力について検討する。
実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成することが示された。
以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
論文 参考訳(メタデータ) (2024-10-15T17:05:25Z) - QUITO: Accelerating Long-Context Reasoning through Query-Guided Context Compression [37.08536175557748]
本稿では,新しいQuery-gUIded aTtention cOmpression (QUITO)法を提案する。
具体的には,質問に対する文脈の注意分布を計算するためにトリガートークンを用いる。
本研究では,2つの広く利用されているデータセットであるNaturalQuestionsとASQAを用いてQUITOを評価する。
論文 参考訳(メタデータ) (2024-08-01T04:28:38Z) - CompAct: Compressing Retrieved Documents Actively for Question Answering [15.585833125854418]
CompActは、キー情報を失うことなく、広範囲のドキュメントを格納するためのアクティブな戦略を採用した、新しいフレームワークである。
実験により,マルチホップ質問応答ベンチマークにおいて,CompActは性能と圧縮率に大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2024-07-12T06:06:54Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Thread of Thought Unraveling Chaotic Contexts [133.24935874034782]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。
実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文 参考訳(メタデータ) (2023-11-15T06:54:44Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - From Contextual Data to Newsvendor Decisions: On the Actual Performance
of Data-Driven Algorithms [2.9603743540540357]
本研究では,過去のデータとの関連性と量が,データ駆動型ポリシーの性能に与える影響について検討する。
我々は,「密接な状況下で観察された過去の要求は,分布の密接な関係から生じると考える。
論文 参考訳(メタデータ) (2023-02-16T17:03:39Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。