論文の概要: Noise-Robust Abstractive Compression in Retrieval-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2512.08943v1
- Date: Wed, 19 Nov 2025 00:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.553424
- Title: Noise-Robust Abstractive Compression in Retrieval-Augmented Language Models
- Title(参考訳): 検索言語モデルにおけるノイズ・ロバスト抽象圧縮
- Authors: Singon Kim,
- Abstract要約: 抽象圧縮は、より小さなランガウジュモデルを用いてクエリ関連コンテキストを凝縮する。
検索された文書は、しばしば、クエリに答えることに関係のない情報や、事実の不正なコンテンツのために誤解を招く情報を含んでいる。
ACoRNは、多くの精度でドキュメントを削減したデータセットを抽出し、現実世界のシナリオで非常に有用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstractive compression utilizes smaller langauge models to condense query-relevant context, reducing computational costs in retrieval-augmented generation (RAG). However, retrieved documents often include information that is either irrelevant to answering the query or misleading due to factual incorrect content, despite having high relevance scores. This behavior indicates that abstractive compressors are more likely to omit important information essential for the correct answer, especially in long contexts where attention dispersion occurs. To address this issue, we categorize retrieved documents in a more fine-grained manner and propose Abstractive Compression Robust against Noise (ACoRN), which introduces two novel training steps. First, we use offline data augmentation on the training dataset to enhance compressor robustness against two distinct types of retrieval noise. Second, since the language model based compressor cannot fully utilize information from multiple retrieved documents and exhibits positional bias, we perform finetuning to generate summaries centered around key information that directly supports the correct answer. Our experiments demonstrate that T5-large, trained with ACoRN as a compressor, improves EM and F1 scores while preserving the answer string, which could serve as direct evidence. ACoRN excels on datasets with many accuracy reducing documents, making it highly useful in real-world scenarios.
- Abstract(参考訳): 抽象圧縮は、より小さなランガウジュモデルを用いてクエリ関連コンテキストを凝縮し、検索拡張生成(RAG)の計算コストを削減する。
しかし、検索された文書には、その質問に答えることに関係のない情報や、事実の誤りによる誤解を招く情報が含まれていることが多い。
この挙動は、特に注意分散が発生した長い文脈において、抽象圧縮機は正しい回答に必要な重要な情報を省略する傾向にあることを示している。
この問題に対処するため、検索した文書をよりきめ細かな方法で分類し、2つの新しいトレーニング手順を導入する抽象圧縮ロバスト対ノイズ(ACoRN)を提案する。
まず、トレーニングデータセット上のオフラインデータ拡張を用いて、2種類の検索ノイズに対して圧縮体ロバスト性を高める。
第二に、言語モデルに基づく圧縮機は、複数の検索された文書からの情報を完全に活用することができず、位置バイアスが生じるので、我々は、正しい回答を直接サポートするキー情報を中心とした要約を生成するために微調整を行う。
実験により, ACoRN を圧縮機として訓練した T5-large は, 応答文字列を保存しながら, EM と F1 のスコアを向上し, 直接的な証拠となることを示した。
ACoRNは、多くの精度でドキュメントを削減したデータセットを抽出し、現実世界のシナリオで非常に有用である。
関連論文リスト
- ACoRN: Noise-Robust Abstractive Compression in Retrieval-Augmented Language Models [26.585985828583304]
抽象圧縮は、より小さなランガウジュモデルを用いてクエリ関連コンテキストを凝縮する。
検索された文書には、質問に答えることに関係のない情報や、事実の誤りによって誤解を招く情報が含まれていることが多い。
この挙動は、抽象圧縮機は正しい解答に必要な重要な情報を省略する傾向にあることを示している。
論文 参考訳(メタデータ) (2025-04-17T06:05:35Z) - Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。
私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
論文 参考訳(メタデータ) (2025-03-06T23:23:13Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - AdaComp: Extractive Context Compression with Adaptive Predictor for Retrieval-Augmented Large Language Models [15.887617654762629]
ノイズを含む検索された文書は、RAGが答えの手がかりを検知するのを妨げ、推論プロセスを遅く、高価にする。
本稿では,クエリの複雑さと検索品質の両面から圧縮率を適応的に決定する,低コストな抽出文脈圧縮手法であるAdaCompを紹介する。
論文 参考訳(メタデータ) (2024-09-03T03:25:59Z) - An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation [35.76451156732993]
情報ボトルネック理論を検索強化世代に導入する。
提案手法では,圧縮と地盤出力の相互情報を同時に最大化することにより,ノイズのフィルタリングを行う。
我々は,情報ボトルネックの定式化を導出し,新たな包括的評価を行う。
論文 参考訳(メタデータ) (2024-06-03T17:31:06Z) - RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective
Augmentation [61.53695868960846]
テキスト内統合に先立って,検索した文書をテキスト要約に圧縮する手法を提案する。
これにより、計算コストを削減できるだけでなく、長期検索された文書の関連情報を識別する上で、LMの負担を軽減できる。
本研究では,あるLMに対して訓練した圧縮機を言語モデリングタスク上で他のLMに転送し,検索した文書にほぼ忠実な要約を提供することを示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:36Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。