論文の概要: Quantifying Document Impact in RAG-LLMs
- arxiv url: http://arxiv.org/abs/2601.05260v1
- Date: Mon, 27 Oct 2025 00:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.525912
- Title: Quantifying Document Impact in RAG-LLMs
- Title(参考訳): RAG-LLMにおける文書影響の定量化
- Authors: Armin Gerami, Kazem Faghih, Ramani Duraiswami,
- Abstract要約: 本稿では、検索した文書が生成した応答に与える影響を計測する部分情報分解に基づく新しい指標であるインフルエンススコア(IS)を紹介する。
まず、3つのデータセットにまたがる毒の攻撃シミュレーションでは、ISが悪意のある文書を86%のケースで最も影響力のある文書と正しく識別していることが示されている。
第2に、アブレーション研究では、上位文書のみを用いて生成された応答が、残りの文書から生成された応答よりも、元の応答と一貫して類似していることが示されている。
- 参考スコア(独自算出の注目度): 9.10734114158633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval Augmented Generation (RAG) enhances Large Language Models (LLMs) by connecting them to external knowledge, improving accuracy and reducing outdated information. However, this introduces challenges such as factual inconsistencies, source conflicts, bias propagation, and security vulnerabilities, which undermine the trustworthiness of RAG systems. A key gap in current RAG evaluation is the lack of a metric to quantify the contribution of individual retrieved documents to the final output. To address this, we introduce the Influence Score (IS), a novel metric based on Partial Information Decomposition that measures the impact of each retrieved document on the generated response. We validate IS through two experiments. First, a poison attack simulation across three datasets demonstrates that IS correctly identifies the malicious document as the most influential in $86\%$ of cases. Second, an ablation study shows that a response generated using only the top-ranked documents by IS is consistently judged more similar to the original response than one generated from the remaining documents. These results confirm the efficacy of IS in isolating and quantifying document influence, offering a valuable tool for improving the transparency and reliability of RAG systems.
- Abstract(参考訳): Retrieval Augmented Generation (RAG)は、Large Language Models (LLM)を強化し、それらを外部の知識に接続し、精度を改善し、古い情報を減らす。
しかし、これは、RAGシステムの信頼性を損なう、現実的な矛盾、ソースコンフリクト、バイアス伝搬、セキュリティ脆弱性などの課題をもたらす。
現在のRAG評価における重要なギャップは、取得した個々の文書の最終的な出力への貢献を定量化する計量の欠如である。
そこで本研究では,検索した各文書が生成した応答に与える影響を計測する,部分情報分解に基づく新しい指標であるインフルエンススコア(IS)を提案する。
ISを2つの実験で検証する。
まず、3つのデータセットにまたがる毒の攻撃シミュレーションでは、ISが悪意のある文書を8,6\%のケースで最も影響力のある文書と正しく識別していることが示されている。
第2に、ISによる上位文書のみを用いて生成された応答は、残りの文書から生成されたものよりも、元の応答と一貫して類似している。
これらの結果は、文書の影響を分離・定量化するためのISの有効性を確認し、RAGシステムの透明性と信頼性を向上させる貴重なツールを提供する。
関連論文リスト
- ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search [69.60882125603133]
本稿では,検索した文書の信頼性情報を明確に活用する,敵対的堅牢性のためのフレームワークであるReliabilityRAGを提案する。
我々の研究は、RAGの回収されたコーパスの腐敗に対するより効果的で確実に堅牢な防御に向けた重要な一歩である。
論文 参考訳(メタデータ) (2025-09-27T22:36:42Z) - Resolving Conflicting Evidence in Automated Fact-Checking: A Study on Retrieval-Augmented LLMs [12.923119372847834]
本稿では,ファクトチェックのためのRAGモデルを初めて体系的に評価する。
実験では、最先端のRAG手法、特にメディアソースの信頼性の違いに起因する紛争の解決において、重大な脆弱性が明らかにされている。
以上の結果から,情報源の信頼性を効果的に取り入れることで,矛盾する証拠を解決し,事実確認性能を向上させるRAGモデルの能力が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-23T11:35:03Z) - GRADA: Graph-based Reranking against Adversarial Documents Attack [34.387997687424004]
敵対的なドキュメント攻撃は、クエリとセマンティックに類似した、敵対的なドキュメントを導入することで、検索プロセスを操作します。
本稿では,検索品質の維持を目標とし,相手の成功を著しく低減するグラフベースの逆文書攻撃対策フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-12T13:27:35Z) - Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。
私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
論文 参考訳(メタデータ) (2025-03-06T23:23:13Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。