論文の概要: Retaining Key Information under High Compression Ratios: Query-Guided Compressor for LLMs
- arxiv url: http://arxiv.org/abs/2406.02376v2
- Date: Mon, 17 Jun 2024 15:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:08:51.106169
- Title: Retaining Key Information under High Compression Ratios: Query-Guided Compressor for LLMs
- Title(参考訳): 圧縮率の高いキー情報の保持:LCM用クエリ誘導圧縮機
- Authors: Zhiwei Cao, Qian Cao, Yu Lu, Ningxin Peng, Luyang Huang, Shanbo Cheng, Jinsong Su,
- Abstract要約: 圧縮比が増加するにつれて従来の手法の性能は劇的に低下し、時にはクローズドブックレベルにまで低下する。
本稿では、クエリを利用してコンテキスト圧縮プロセスをガイドするQuery-Guided (QGC)を紹介する。
提案したQGCの有効性を,NaturalQuestions,TriviaQA,HotpotQAデータセットを含む質問応答タスクで検証する。
- 参考スコア(独自算出の注目度): 35.91962517513945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing popularity of Large Language Models has sparked interest in context compression for Large Language Models (LLMs). However, the performance of previous methods degrades dramatically as compression ratios increase, sometimes even falling to the closed-book level. This decline can be attributed to the loss of key information during the compression process. Our preliminary study supports this hypothesis, emphasizing the significance of retaining key information to maintain model performance under high compression ratios. As a result, we introduce Query-Guided Compressor (QGC), which leverages queries to guide the context compression process, effectively preserving key information within the compressed context. Additionally, we employ a dynamic compression strategy. We validate the effectiveness of our proposed QGC on the Question Answering task, including NaturalQuestions, TriviaQA, and HotpotQA datasets. Experimental results show that QGC can consistently perform well even at high compression ratios, which also offers significant benefits in terms of inference cost and throughput.
- Abstract(参考訳): 大規模言語モデルの人気が高まり、LLM(Large Language Models)のコンテキスト圧縮への関心が高まった。
しかし、圧縮比が増加するにつれて従来の手法の性能は劇的に低下し、時にはクローズドブックレベルにまで低下する。
この減少は、圧縮プロセス中にキー情報が失われることに起因する。
本研究は, 高圧縮比下でのモデル性能を維持するために重要な情報を保持することの重要性を強調し, この仮説を支持する。
その結果,QGC (Query-Guided Compressor) を導入し,クエリを利用してコンテキスト圧縮プロセスのガイドを行い,圧縮されたコンテキスト内のキー情報を効果的に保存する。
さらに、動的圧縮戦略を採用する。
提案したQGCの有効性を,NaturalQuestions,TriviaQA,HotpotQAデータセットを含む質問応答タスクで検証する。
実験結果から,QGCは高い圧縮比でも一貫した性能を示し,推算コストとスループットの面でも有益であることがわかった。
関連論文リスト
- Task-agnostic Prompt Compression with Context-aware Sentence Embedding and Reward-guided Task Descriptor [16.830389144259584]
Task-Agnostic Prompt Compression (TPC)は、入力質問やテンプレートを必要とせずにタスクやドメイン間の圧縮を一般化する新しいフレームワークである。
TPCは、コンテキストとクエリペアのキュレートされたデータセットに基づいてトレーニングされたタスク記述子を使用して、コンテキスト関連タスク記述を生成する。
我々は,LongBenchおよびZeroSCROLLSベンチマークにおいて,既存の最先端手法よりも優れた3つのモデルサイズ(Base, Large, Huge)を導入する。
論文 参考訳(メタデータ) (2025-02-19T02:16:29Z) - Learned Data Compression: Challenges and Opportunities for the Future [34.95766887424342]
インセンチュラードの最近の進歩は、インセンチュラード圧縮機の開発にインスピレーションを与えた
これらの圧縮機は、大規模なソートキーを圧縮するために、単純だがコンパクトな機械学習(ML)モデルを利用する。
本稿では,学習データ圧縮の可能性を探究し,索引や関連領域の重要な領域を強化する。
論文 参考訳(メタデータ) (2024-12-14T09:47:21Z) - Perception Compressor: A Training-Free Prompt Compression Framework in Long Context Scenarios [17.720102137585503]
Perceptionは、大規模な言語モデルのためのトレーニングフリーのプロンプト圧縮フレームワークである。
これには、指導的質問と指示を利用して、最も関連するデモンストレーションを検索する知覚検索機能が含まれる。
長いコンテキスト、ベンチマーク、iSie、LongBench、MuSiQueに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-09-28T07:13:33Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。