Fugu-MT 論文翻訳(概要): QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory

論文の概要: QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory

arxiv url: http://arxiv.org/abs/2408.10497v2
Date: Mon, 16 Dec 2024 15:03:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:58.725484
Title: QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory
Title（参考訳）: QUITO-X:Information Bottleneck理論による文脈圧縮の新しい視点
Authors: Yihang Wang, Xu Huang, Bowen Tian, Yueyang Su, Lei Yu, Huaming Liao, Yixing Fan, Jiafeng Guo, Xueqi Cheng,
Abstract要約: 問題をモデル化するために情報ボトルネック理論(IB)を導入する。 IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
参考スコア（独自算出の注目度）: 66.01597794579568
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative LLM have achieved remarkable success in various industrial applications, owing to their promising In-Context Learning capabilities. However, the issue of long context in complex tasks poses a significant barrier to their wider adoption, manifested in two main aspects: (i) The excessively long context leads to high costs and inference delays. (ii) A substantial amount of task-irrelevant information introduced by long contexts exacerbates the "lost in the middle" problem. Existing methods compress context by removing redundant tokens using metrics such as self-information or PPL, which is inconsistent with the objective of retaining the most important tokens when conditioning on a given query. In this study, we introduce information bottleneck theory (IB) to model the problem, offering a novel perspective that thoroughly addresses the essential properties required for context compression. Additionally, we propose a cross-attention-based approach to approximate mutual information in IB, which can be flexibly replaced with suitable alternatives in different scenarios. Extensive experiments on four datasets demonstrate that our method achieves a 25% increase in compression rate compared to the state-of-the-art, while maintaining question answering performance. In particular, the context compressed by our method even outperform the full context in some cases.
Abstract（参考訳）: 生成LDMは、将来性のあるIn-Context学習能力のため、様々な産業アプリケーションで顕著な成功を収めた。しかし、複雑なタスクにおける長期的コンテキストの問題は、より広範な採用に重大な障壁をもたらす。 i)過度に長いコンテキストは、コストと推論の遅延につながる。二長期的文脈で導入したタスク非関連情報が「中間のロスト」問題を悪化させる。既存の方法は、自己情報やPPLなどのメトリクスを使用して冗長トークンを除去することでコンテキストを圧縮する。本研究では,この問題をモデル化するために情報ボトルネック理論(IB)を導入し,文脈圧縮に必要な重要な特性を徹底的に解決する新たな視点を提供する。さらに,異なるシナリオで適切な代替手段に柔軟に置き換えることのできる,IABにおける相互情報を近似するための横断的アテンションに基づくアプローチを提案する。 4つのデータセットに対する大規模な実験により,本手法は現状よりも25%圧縮率の向上を実現し,質問応答性能を維持した。特に,本手法により圧縮された文脈は,場合によっては全文脈よりも優れる。

関連論文リスト

Combining Abstract Argumentation and Machine Learning for Efficiently Analyzing Low-Level Process Event Streams [18.821902752237204]
本稿では,解釈問題に対するデータ/計算効率のよいニューロシンボリックアプローチを提案する。グリーンAIソリューションの急激な開発の必要性を考えると,この問題に対するデータ/計算効率の高いニューロシンボリックアプローチを提案する。
論文参考訳（メタデータ） (2025-05-09T08:45:07Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文参考訳（メタデータ） (2024-11-11T02:47:05Z)
Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文参考訳（メタデータ） (2024-11-08T19:27:42Z)
Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability [67.77534983324229]
本稿では,非形式的トークンを識別する統一圧縮法を開発するために,大規模言語モデルの能力について検討する。実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成することが示された。以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
論文参考訳（メタデータ） (2024-10-15T17:05:25Z)
Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference [16.830389144259584]
文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
論文参考訳（メタデータ） (2024-09-02T13:02:51Z)
QUITO: Accelerating Long-Context Reasoning through Query-Guided Context Compression [37.08536175557748]
本稿では,新しいQuery-gUIded aTtention cOmpression (QUITO)法を提案する。具体的には,質問に対する文脈の注意分布を計算するためにトリガートークンを用いる。本研究では,2つの広く利用されているデータセットであるNaturalQuestionsとASQAを用いてQUITOを評価する。
論文参考訳（メタデータ） (2024-08-01T04:28:38Z)
CompAct: Compressing Retrieved Documents Actively for Question Answering [15.585833125854418]
CompActは、キー情報を失うことなく、広範囲のドキュメントを格納するためのアクティブな戦略を採用した、新しいフレームワークである。実験により,マルチホップ質問応答ベンチマークにおいて,CompActは性能と圧縮率に大きな改善をもたらすことが示された。
論文参考訳（メタデータ） (2024-07-12T06:06:54Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文参考訳（メタデータ） (2024-06-19T15:14:55Z)
Thread of Thought Unraveling Chaotic Contexts [133.24935874034782]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文参考訳（メタデータ） (2023-11-15T06:54:44Z)
Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文参考訳（メタデータ） (2023-11-03T03:18:40Z)
PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文参考訳（メタデータ） (2023-10-18T02:59:57Z)
From Contextual Data to Newsvendor Decisions: On the Actual Performance of Data-Driven Algorithms [2.9603743540540357]
本研究では,過去のデータとの関連性と量が,データ駆動型ポリシーの性能に与える影響について検討する。我々は,「密接な状況下で観察された過去の要求は,分布の密接な関係から生じると考える。
論文参考訳（メタデータ） (2023-02-16T17:03:39Z)
Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文参考訳（メタデータ） (2022-06-20T03:09:46Z)
Dynamic Query Selection for Fast Visual Perceiver [42.07082299370995]
精度低下を抑えつつ、推論中のクエリQ数を削減し、Perceiversをさらに効率的にする方法を示す。本研究では,精度低下を抑えつつ,推論中のクエリQ数を削減し,Perceiversをより効率的にする方法を検討する。
論文参考訳（メタデータ） (2022-05-22T17:23:51Z)
An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文参考訳（メタデータ） (2021-08-19T07:03:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。