論文の概要: Rethinking Soft Compression in Retrieval-Augmented Generation: A Query-Conditioned Selector Perspective
- arxiv url: http://arxiv.org/abs/2602.15856v1
- Date: Sun, 25 Jan 2026 09:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.655246
- Title: Rethinking Soft Compression in Retrieval-Augmented Generation: A Query-Conditioned Selector Perspective
- Title(参考訳): 検索拡張世代におけるソフト圧縮の再考:クエリ型セレクタの視点から
- Authors: Yunhao Liu, Zian Jia, Xinyu Gao, Kanjun Xu, Yun Xiong,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)を外部知識で効果的に構築する。
ソフトコンテクスト圧縮に関する最近の研究は、長い文書をコンパクトな埋め込みに符号化することでこの問題に対処することを目的としている。
本稿では,クエリ条件情報セレクタとしてのエンコーダの役割を再定義する,RAGのためのセレクタベースのソフト圧縮フレームワークであるSeleComを紹介する。
- 参考スコア(独自算出の注目度): 21.41673002861847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) effectively grounds Large Language Models (LLMs) with external knowledge and is widely applied to Web-related tasks. However, its scalability is hindered by excessive context length and redundant retrievals. Recent research on soft context compression aims to address this by encoding long documents into compact embeddings, yet they often underperform non-compressed RAG due to their reliance on auto-encoder-like full-compression that forces the encoder to compress all document information regardless of relevance to the input query. In this work, we conduct an analysis on this paradigm and reveal two fundamental limitations: (I) Infeasibility, full-compression conflicts with the LLM's downstream generation behavior; and (II) Non-necessity: full-compression is unnecessary and dilutes task-relevant information density. Motivated by these insights, we introduce SeleCom, a selector-based soft compression framework for RAG that redefines the encoder's role as query-conditioned information selector. The selector is decoder-only and is trained with a massive, diverse and difficulty-graded synthetic QA dataset with curriculum learning. Extensive experiments show that SeleCom significantly outperforms existing soft compression approaches and achieves competitive or superior performance to non-compression baselines, while reducing computation and latency by 33.8%~84.6%.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)を外部知識で効果的に構築し、Web関連のタスクに広く適用している。
しかし、そのスケーラビリティは、過剰なコンテキスト長と冗長な検索によって妨げられている。
ソフトコンテキスト圧縮の最近の研究は、長い文書をコンパクトな埋め込みに符号化することでこの問題に対処することを目的としているが、オートエンコーダのようなフル圧縮に依存しているため、入力クエリに関係なく、エンコーダがすべての文書情報を圧縮しなければならないため、しばしば非圧縮RAGを過小評価する。
本研究は,本パラダイムを解析し, (I) LLM の下流生成行動と, (II) 非必要性: 完全圧縮は不要であり,タスク関連情報密度を希釈する,という2つの基本的制約を明らかにする。
これらの知見に触発されたSeleComは,クエリ条件情報セレクタとしてのエンコーダの役割を再定義する,RAGのためのセレクタベースのソフト圧縮フレームワークである。
セレクタはデコーダのみであり、カリキュラム学習を伴う大規模で多様性があり、難易度の高い合成QAデータセットでトレーニングされている。
大規模な実験により、SeleComは既存のソフト圧縮手法を著しく上回り、非圧縮ベースラインとの競合や優れた性能を実現し、計算とレイテンシを33.8%〜84.6%削減した。
関連論文リスト
- Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation [49.48204107529758]
我々はトークンオーバーフローを、圧縮された表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義する。
本稿では,非圧縮トークン表現から,クエリ非依存の飽和統計を確実に分離することを見出した。
クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。
これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
論文 参考訳(メタデータ) (2026-02-12T18:15:08Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - ATACompressor: Adaptive Task-Aware Compression for Efficient Long-Context Processing in LLMs [28.55805086141996]
本稿では,タスクの特定の要求に応じて圧縮を調整する適応タスク認識(ATACompressor)を提案する。
ATACompressorは、長いコンテキストのタスク関連部分のみを圧縮する選択エンコーダを使用し、不要なコンテンツを減らすとともに必須情報が保存されることを保証する。
我々はATACompressorを3つのQAデータセット上で評価する: HotpotQA, MSMARCO, SQUAD-showingは圧縮効率とタスク性能の両面で既存の手法より優れている。
論文 参考訳(メタデータ) (2026-02-03T07:53:29Z) - AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation [27.480791258325066]
我々は適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介した。
AttnCompは最小限の文書を保持するためにトップP圧縮アルゴリズムを使用している。
圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答の信頼性を推定する。
論文 参考訳(メタデータ) (2025-09-22T08:18:50Z) - CORE-RAG: Lossless Compression for Retrieval-Augmented LLMs via Reinforcement Learning [22.93037884068796]
Retrieval-Augmented Generation (RAG) は、知識更新のタイムラインと大規模言語モデルにおける応答の事実的正確性を高めるための有望なアプローチとして登場した。
RAG用に調整された文書圧縮への既存のアプローチは、しばしばタスクパフォーマンスを低下させる。
我々は、RAGにおけるロスレスコンテキスト圧縮の新しい手法であるCOREを提案する。
論文 参考訳(メタデータ) (2025-08-24T12:21:50Z) - Compressed Feature Quality Assessment: Dataset and Baselines [89.62929964441962]
圧縮された特徴のセマンティック忠実度を評価するための最初のベンチマークデータセットを提案する。
MSE、コサイン類似性、CKA(Centered Kernel Alignment)という3つの広く使われているメトリクスを、意味的劣化を捉える能力の観点から体系的に評価する。
この研究は、基礎的なベンチマークを確立し、コミュニティがCFQAを探索するための重要なリソースを提供することによって、この分野を前進させます。
論文 参考訳(メタデータ) (2025-06-09T04:16:39Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。