論文の概要: Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals
- arxiv url: http://arxiv.org/abs/2502.16101v1
- Date: Sat, 22 Feb 2025 05:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:50.422736
- Title: Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals
- Title(参考訳): ゼロショットより悪いか? ミスリーディング検索に対するRAGのロバスト性評価のためのFact-Checkingデータセット
- Authors: Linda Zeng, Rithwik Gupta, Divij Motwani, Diji Yang, Yi Zhang,
- Abstract要約: 本稿では,RAGシステムの不正検索に対する堅牢性を評価するために設計されたファクトチェックデータセットであるRAGuardを紹介する。
RAGuardは、回収された証拠を3つのタイプに分類する。
ベンチマーク実験の結果,LLM方式のRAGシステムはすべて,ゼロショットベースラインよりも性能が劣っていることがわかった。
- 参考スコア(独自算出の注目度): 3.9139847342664864
- License:
- Abstract: Retrieval-augmented generation (RAG) has shown impressive capabilities in mitigating hallucinations in large language models (LLMs). However, LLMs struggle to handle misleading retrievals and often fail to maintain their own reasoning when exposed to conflicting or selectively-framed evidence, making them vulnerable to real-world misinformation. In such real-world retrieval scenarios, misleading and conflicting information is rampant, particularly in the political domain, where evidence is often selectively framed, incomplete, or polarized. However, existing RAG benchmarks largely assume a clean retrieval setting, where models succeed by accurately retrieving and generating answers from gold-standard documents. This assumption fails to align with real-world conditions, leading to an overestimation of RAG system performance. To bridge this gap, we introduce RAGuard, a fact-checking dataset designed to evaluate the robustness of RAG systems against misleading retrievals. Unlike prior benchmarks that rely on synthetic noise, our dataset constructs its retrieval corpus from Reddit discussions, capturing naturally occurring misinformation. It categorizes retrieved evidence into three types: supporting, misleading, and irrelevant, providing a realistic and challenging testbed for assessing how well RAG systems navigate different retrieval information. Our benchmark experiments reveal that when exposed to misleading retrievals, all tested LLM-powered RAG systems perform worse than their zero-shot baselines (i.e., no retrieval at all), highlighting their susceptibility to noisy environments. To the best of our knowledge, RAGuard is the first benchmark to systematically assess RAG robustness against misleading evidence. We expect this benchmark will drive future research toward improving RAG systems beyond idealized datasets, making them more reliable for real-world applications.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚を緩和する優れた機能を示している。
しかし、LLMは誤解を招く検索を扱うのに苦労し、矛盾する証拠や選択的な証拠に晒された場合、しばしば自身の推論を維持するのに失敗し、現実世界の誤報に弱い。
このような現実世界の検索シナリオでは、誤解を招く情報や矛盾する情報が、特に政治的領域では、証拠が選択的にフレーム化、不完全化、偏極化されることが多い。
しかし、既存のRAGベンチマークは主にクリーンな検索環境を前提としており、モデルがゴールドスタンダード文書から正確に検索し、回答を生成することに成功している。
この仮定は現実世界の条件と一致せず、RAGシステムの性能を過大評価する。
このギャップを埋めるため,RAGuardというファクトチェックデータセットを導入し,不正検索に対するRAGシステムの堅牢性を評価する。
合成ノイズに依存する以前のベンチマークとは異なり、我々のデータセットはRedditの議論から抽出コーパスを構築し、自然に発生する誤報をキャプチャする。
検索された証拠を、サポート、誤解を招く、無関係な3つのタイプに分類し、RAGシステムが異なる検索情報をいかにうまくナビゲートするかを評価するための現実的で挑戦的なテストベッドを提供する。
ベンチマーク実験の結果,LLM方式のRAGシステムはすべて,ゼロショットベースラインよりも性能が悪く,ノイズの多い環境への感受性が強調された。
我々の知る限りでは、RAGuardは、誤解を招く証拠に対してRAGの堅牢性を体系的に評価する最初のベンチマークである。
このベンチマークは、理想化されたデータセットを超えてRAGシステムを改善するための将来の研究を推進し、現実世界のアプリケーションに対してより信頼性を高めることを期待しています。
関連論文リスト
- Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索データベースに注入された悪意のあるパスが、モデルを誤誘導し、事実的に誤ったアウトプットを発生させるような、敵の毒殺攻撃に弱い。
本稿では,RAGシステムの検索と生成の両要素について検討し,攻撃に対するロバスト性を高める方法について考察する。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。
チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文 参考訳(メタデータ) (2024-10-25T14:07:53Z) - Toward Robust RALMs: Revealing the Impact of Imperfect Retrieval on Retrieval-Augmented Language Models [5.10832476049103]
提案手法では,ALMを実世界の実例と混同しうるシナリオを3つ同定する。
我々は,新たな敵攻撃法,生成モデルに基づくADVersarial attack (GenADV) と,付加文書(RAD)に基づく新しい計量ロバストネスを提案する。
以上の結果から,ALMは文書集合の未解決性や矛盾を識別できないことが多く,幻覚につながることが多かった。
論文 参考訳(メタデータ) (2024-10-19T13:40:33Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within
Knowledge-Intensive Application Domains [34.122040172188406]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。