論文の概要: A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression
- arxiv url: http://arxiv.org/abs/2412.17483v1
- Date: Mon, 23 Dec 2024 11:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:38.078614
- Title: A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression
- Title(参考訳): 銀の弾丸か完全注意の妥協か? : ギストトケンによる文脈圧縮の総合的研究
- Authors: Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou,
- Abstract要約: ギストベースの圧縮は,検索強化生成や長期文書QAといったタスクにおいて,ほぼ無作為な性能が得られることを示す。
境界によって失われ、サプライズによって失われ、途中で失われる3つの重要な障害パターンを特定します。
本稿では,従来のトークン情報の復号化を促進させる細粒度自動符号化と,セグメント単位のトークン重要度推定という2つの効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 41.71994217868039
- License:
- Abstract: In this work, we provide a thorough investigation of gist-based context compression methods to improve long-context processing in large language models. We focus on two key questions: (1) How well can these methods replace full attention models? and (2) What potential failure patterns arise due to compression? Through extensive experiments, we show that while gist-based compression can achieve near-lossless performance on tasks like retrieval-augmented generation and long-document QA, it faces challenges in tasks like synthetic recall. Furthermore, we identify three key failure patterns: lost by the boundary, lost if surprise, and lost along the way. To mitigate these issues, we propose two effective strategies: fine-grained autoencoding, which enhances the reconstruction of original token information, and segment-wise token importance estimation, which adjusts optimization based on token dependencies. Our work provides valuable insights into the understanding of gist token-based context compression and offers practical strategies for improving compression capabilities.
- Abstract(参考訳): 本研究では,大言語モデルにおける長文処理を改善するために,gist-based context compression法を徹底的に検討する。
1) これらの手法は、フルアテンションモデルを置き換えるにはどうすればよいのか?
2)圧縮による潜在的な障害パターンは何か?
広範にわたる実験により、検索強化世代や長期文書QAといったタスクにおいて、ギストベースの圧縮は、ほぼ無作為なパフォーマンスを達成できるが、合成リコールのようなタスクでは課題に直面していることが示された。
さらに、境界によって失われ、サプライズによって失われ、途中で失われる3つの重要な障害パターンを特定します。
これらの問題を緩和するために、オリジナルトークン情報の再構築を促進する細粒度自動符号化と、トークン依存性に基づいて最適化を調整するセグメント単位のトークン重要度推定という2つの効果的な戦略を提案する。
我々の研究は、gistトークンベースのコンテキスト圧縮の理解に関する貴重な洞察を提供し、圧縮能力を改善するための実践的な戦略を提供する。
関連論文リスト
- TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning [11.167198972934736]
GPT-4のような大規模言語モデル(LLM)は、最適なパフォーマンスに必要なプロンプトのサイズが急増した。
本稿では,RLに基づくタスク認識プロンプト圧縮手法を提案する。
我々は,RL誘導圧縮法により,最先端圧縮技術よりもタスク性能が8%から189%向上することが実証された。
論文 参考訳(メタデータ) (2024-09-19T18:11:59Z) - LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。
本質的な情報を保持しながら、即時長を短縮する。
既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文 参考訳(メタデータ) (2024-09-01T22:09:20Z) - Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.025001473355996]
大規模言語モデル(LLM)の即時圧縮問題について定式化する。
ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。
本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文 参考訳(メタデータ) (2024-07-22T09:40:13Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - Compressing Lengthy Context With UltraGist [22.054232261437186]
長大な文脈の高品質な圧縮を特徴とするUltraGistという手法を提案する。
UltraGistは、幅広いコンテキスト長と圧縮比をサポートするために効果的に学習できるため、圧縮の柔軟性に寄与する。
これにより、トレーニングプロセスのサンプル効率が向上し、トレーニングデータの使用が最大になる。
論文 参考訳(メタデータ) (2024-05-26T17:23:56Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - What Is Considered Complete for Visual Recognition? [110.43159801737222]
我々は、学習・バイ・圧縮という新しいタイプの事前学習タスクを提唱する。
計算モデルは、コンパクトな特徴を用いて視覚データを表現するように最適化されている。
セマンティックアノテーションは、利用可能であれば、弱い監督の役割を担います。
論文 参考訳(メタデータ) (2021-05-28T16:59:14Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。