論文の概要: Retaining Key Information under High Compression Ratios: Query-Guided Compressor for LLMs
- arxiv url: http://arxiv.org/abs/2406.02376v2
- Date: Mon, 17 Jun 2024 15:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:08:51.106169
- Title: Retaining Key Information under High Compression Ratios: Query-Guided Compressor for LLMs
- Title(参考訳): 圧縮率の高いキー情報の保持:LCM用クエリ誘導圧縮機
- Authors: Zhiwei Cao, Qian Cao, Yu Lu, Ningxin Peng, Luyang Huang, Shanbo Cheng, Jinsong Su,
- Abstract要約: 圧縮比が増加するにつれて従来の手法の性能は劇的に低下し、時にはクローズドブックレベルにまで低下する。
本稿では、クエリを利用してコンテキスト圧縮プロセスをガイドするQuery-Guided (QGC)を紹介する。
提案したQGCの有効性を,NaturalQuestions,TriviaQA,HotpotQAデータセットを含む質問応答タスクで検証する。
- 参考スコア(独自算出の注目度): 35.91962517513945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing popularity of Large Language Models has sparked interest in context compression for Large Language Models (LLMs). However, the performance of previous methods degrades dramatically as compression ratios increase, sometimes even falling to the closed-book level. This decline can be attributed to the loss of key information during the compression process. Our preliminary study supports this hypothesis, emphasizing the significance of retaining key information to maintain model performance under high compression ratios. As a result, we introduce Query-Guided Compressor (QGC), which leverages queries to guide the context compression process, effectively preserving key information within the compressed context. Additionally, we employ a dynamic compression strategy. We validate the effectiveness of our proposed QGC on the Question Answering task, including NaturalQuestions, TriviaQA, and HotpotQA datasets. Experimental results show that QGC can consistently perform well even at high compression ratios, which also offers significant benefits in terms of inference cost and throughput.
- Abstract(参考訳): 大規模言語モデルの人気が高まり、LLM(Large Language Models)のコンテキスト圧縮への関心が高まった。
しかし、圧縮比が増加するにつれて従来の手法の性能は劇的に低下し、時にはクローズドブックレベルにまで低下する。
この減少は、圧縮プロセス中にキー情報が失われることに起因する。
本研究は, 高圧縮比下でのモデル性能を維持するために重要な情報を保持することの重要性を強調し, この仮説を支持する。
その結果,QGC (Query-Guided Compressor) を導入し,クエリを利用してコンテキスト圧縮プロセスのガイドを行い,圧縮されたコンテキスト内のキー情報を効果的に保存する。
さらに、動的圧縮戦略を採用する。
提案したQGCの有効性を,NaturalQuestions,TriviaQA,HotpotQAデータセットを含む質問応答タスクで検証する。
実験結果から,QGCは高い圧縮比でも一貫した性能を示し,推算コストとスループットの面でも有益であることがわかった。
関連論文リスト
- Perception Compressor:A training-free prompt compression method in long context scenarios [17.720102137585503]
パーセプション(Perception)は、大規模言語モデルのトレーニング不要なプロンプト圧縮手法である。
既存のメソッドのマージンを大きく上回り、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-28T07:13:33Z) - Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference [16.830389144259584]
文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。
鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。
提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
論文 参考訳(メタデータ) (2024-09-02T13:02:51Z) - Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.025001473355996]
大規模言語モデル(LLM)の即時圧縮問題について定式化する。
ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。
本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文 参考訳(メタデータ) (2024-07-22T09:40:13Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。