論文の概要: Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2602.12235v1
- Date: Thu, 12 Feb 2026 18:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.974602
- Title: Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation
- Title(参考訳): 検索拡張生成のための圧縮トークン表現のオーバーフロー検出
- Authors: Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko,
- Abstract要約: 本稿では,圧縮表現が与えられたクエリに応答する十分な情報を含んでいない状態として,エンファントケンオーバーフローを定義した。
xRAGソフト圧縮設定では、非圧縮トークン表現から確実に圧縮されたクエリ非依存の飽和統計が分離される。
クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。
これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
- 参考スコア(独自算出の注目度): 49.48204107529758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define \emph{token overflow} as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.
- Abstract(参考訳): 長文の効率的な処理は、特に資源制約のある環境において、現代における大規模言語モデル(LLM)にとって重要な課題である。
ソフト圧縮アーキテクチャは、長いトークンシーケンスを学習されたトークンのより小さなセットに置き換えることで、効果的なコンテキスト長を拡張することを約束する。
しかし、圧縮可能性の限界 -- および圧縮がタスク関連コンテンツを消し始めるとき -- は、まだ過小評価されていない。
本稿では,<emph{token overflow} を,圧縮表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義し,それを特徴付け,検出する手法を提案する。
xRAGソフト圧縮設定では、圧縮されていないトークン表現から確実に圧縮されたクエリ非依存の飽和統計が分離され、圧縮されたトークンを識別する実用的なツールを提供するが、オーバーフロー検出能力は限られている。
クエリとコンテキストの両方にわたる軽量なプローブ分類器は、HotpotQA、SQuADv2、TriviaQAデータセットで平均0.72 AUC-ROCでオーバーフローを検出し、クエリ情報を統合することで検出性能が向上することを示した。
これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
関連論文リスト
- Hierarchical Token Prepending: Enhancing Information Flow in Decoder-based LLM Embeddings [52.49524240846879]
本稿では,注目レベルの圧縮と読み出しレベルのオーバーシャッシングを緩和する階層型トークンプレッペンディングを提案する。
HTPは、入力をブロックに分割し、ブロックレベルの要約トークンをその後のブロックにプリペンドし、後方情報フローの経路を作成する。
シンプルなアーキテクチャに依存しない方法として、HTPはゼロショットモデルと微調整モデルの両方を強化し、優れた長期文書埋め込みへのスケーラブルなルートを提供する。
論文 参考訳(メタデータ) (2025-11-18T19:37:40Z) - Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods [54.4711434793961]
単純な画像ダウンサンプリングは、複数の広く使用されているベンチマークにおいて、多くの高度な圧縮方法より一貫して優れていることを示す。
これらの結果に触発され,既存のベンチマークを識別するデータフィルタリング機構を組み込んだ評価フレームワークであるVTC-Benchを導入する。
論文 参考訳(メタデータ) (2025-10-08T15:44:28Z) - AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation [27.480791258325066]
我々は適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介した。
AttnCompは最小限の文書を保持するためにトップP圧縮アルゴリズムを使用している。
圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答の信頼性を推定する。
論文 参考訳(メタデータ) (2025-09-22T08:18:50Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - Compressed Feature Quality Assessment: Dataset and Baselines [89.62929964441962]
圧縮された特徴のセマンティック忠実度を評価するための最初のベンチマークデータセットを提案する。
MSE、コサイン類似性、CKA(Centered Kernel Alignment)という3つの広く使われているメトリクスを、意味的劣化を捉える能力の観点から体系的に評価する。
この研究は、基礎的なベンチマークを確立し、コミュニティがCFQAを探索するための重要なリソースを提供することによって、この分野を前進させます。
論文 参考訳(メタデータ) (2025-06-09T04:16:39Z) - EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation [8.757777529568383]
現在のRAGシステムは、検索モデルが最も関連性の高い文書のランク付けに失敗したときにしばしば苦労する。
抽出文脈圧縮フレームワークEXITを紹介する。
評価の結果,EXITは既存の圧縮手法を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-17T05:38:27Z) - Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.025001473355996]
大規模言語モデル(LLM)の即時圧縮問題について定式化する。
ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。
本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文 参考訳(メタデータ) (2024-07-22T09:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。