論文の概要: QUITO-X: An Information Bottleneck-based Compression Algorithm with Cross-Attention
- arxiv url: http://arxiv.org/abs/2408.10497v1
- Date: Tue, 20 Aug 2024 02:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:24:37.142350
- Title: QUITO-X: An Information Bottleneck-based Compression Algorithm with Cross-Attention
- Title(参考訳): QUITO-X:クロスアテンションを用いた情報ボトルネック型圧縮アルゴリズム
- Authors: Yihang Wang, Xu Huang, Bowen Tian, Yixing Fan, Jiafeng Guo,
- Abstract要約: 本稿では,メトリクスが要求する特性を調べるために,情報ボトルネック理論を導入する。
これに影響を受け、エンコーダ・デコーダアーキテクチャにおけるクロスアテンションを新しいメトリクスとして使用します。
我々の単純な手法は、レイテンシーの低い小さなモデルでは大幅に性能が向上する。
- 参考スコア(独自算出の注目度): 37.25151458038128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative LLM have achieved significant success in various industrial tasks and can effectively adapt to vertical domains and downstream tasks through ICL. However, with tasks becoming increasingly complex, the context length required by ICL is also getting longer, and two significant issues arise: (i) The excessively long context leads to high costs and inference delays. (ii) A substantial amount of task-irrelevant information introduced by long contexts exacerbates the "lost in the middle" problem. Recently, compressing prompts by removing tokens according to some metric obtained from some causal language models, such as llama-7b, has emerged as an effective approach to mitigate these issues. However, the metric used by prior method such as self-information or PPL do not fully align with the objective of distinuishing the most important tokens when conditioning on query. In this work, we introduce information bottleneck theory to carefully examine the properties required by the metric. Inspired by this, we use cross-attention in encoder-decoder architecture as a new metric. Our simple method leads to significantly better performance in smaller models with lower latency. We evaluate our method on four datasets: DROP, CoQA, SQuAD, and Quoref. The experimental results show that, while maintaining the same performance, our compression rate can improve by nearly 25% over previous SOTA. Remarkably, in experiments where 25% of the tokens are removed, our model's EM score for answers sometimes even exceeds that of the control group using uncompressed text as context.
- Abstract(参考訳): 生成LDMは様々な産業タスクにおいて大きな成功を収めており、ICLを介して垂直領域や下流タスクに効果的に適応することができる。
しかし、タスクが複雑化するにつれて、ICLが要求するコンテキスト長も長くなり、2つの重大な問題が発生する。
i)過度に長いコンテキストは、コストと推論の遅延につながる。
二 長期的文脈で導入したタスク非関連情報が「中間のロスト」問題を悪化させる。
近年、ラマ7bのような因果関係言語モデルから得られた指標に従ってトークンを除去して圧縮プロンプトが、これらの問題を緩和するための効果的なアプローチとして出現している。
しかし、自己情報やPPLといった事前の手法で使われるメトリクスは、クエリの条件付け時に最も重要なトークンを廃止する目的と完全に一致しない。
本研究では,計量が必要とする特性を慎重に検討するために,情報ボトルネック理論を導入する。
これに影響を受け、エンコーダ・デコーダアーキテクチャにおけるクロスアテンションを新しいメトリクスとして使用します。
我々の単純な手法は、レイテンシの低い小さなモデルでは、大幅に性能が向上する。
DROP, CoQA, SQuAD, Quoref の4つのデータセットを用いて本手法の評価を行った。
実験の結果,同じ性能を維持しながら,従来のSOTAよりも25%近く圧縮速度が向上することがわかった。
興味深いことに、25%のトークンが取り除かれた実験では、私たちのモデルのEMスコアは、文脈として圧縮されていないテキストを使用して制御グループのスコアを超えることがある。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。
部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。
提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference [16.830389144259584]
文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。
鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。
提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
論文 参考訳(メタデータ) (2024-09-02T13:02:51Z) - QUITO: Accelerating Long-Context Reasoning through Query-Guided Context Compression [37.08536175557748]
本稿では,新しいQuery-gUIded aTtention cOmpression (QUITO)法を提案する。
具体的には,質問に対する文脈の注意分布を計算するためにトリガートークンを用いる。
本研究では,2つの広く利用されているデータセットであるNaturalQuestionsとASQAを用いてQUITOを評価する。
論文 参考訳(メタデータ) (2024-08-01T04:28:38Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Dynamic Query Selection for Fast Visual Perceiver [42.07082299370995]
精度低下を抑えつつ、推論中のクエリQ数を削減し、Perceiversをさらに効率的にする方法を示す。
本研究では,精度低下を抑えつつ,推論中のクエリQ数を削減し,Perceiversをより効率的にする方法を検討する。
論文 参考訳(メタデータ) (2022-05-22T17:23:51Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。