論文の概要: MetaRAG: Metamorphic Testing for Hallucination Detection in RAG Systems
- arxiv url: http://arxiv.org/abs/2509.09360v1
- Date: Thu, 11 Sep 2025 11:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.351798
- Title: MetaRAG: Metamorphic Testing for Hallucination Detection in RAG Systems
- Title(参考訳): MetaRAG:RAGシステムにおける幻覚検出のための変成検査
- Authors: Channdeth Sok, David Luz, Yacine Haddam,
- Abstract要約: 本稿では,Retrieval-Augmented Generation (RAG)システムにおける幻覚検出のためのテストフレームワークであるMetaRAGを提案する。
MetaRAGは、リアルタイム、教師なし、ブラックボックスの設定で動作し、グランドトラスト参照もモデル内部へのアクセスも必要としない。
アイデンティティを意識したAIにとって、MetaRAGは、サポート対象の主張を、その発生箇所のファクトイドでローカライズする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in enterprise applications, yet their reliability remains limited by hallucinations, i.e., confident but factually incorrect information. Existing detection approaches, such as SelfCheckGPT and MetaQA, primarily target standalone LLMs and do not address the unique challenges of Retrieval-Augmented Generation (RAG) systems, where responses must be consistent with retrieved evidence. We therefore present MetaRAG, a metamorphic testing framework for hallucination detection in Retrieval-Augmented Generation (RAG) systems. MetaRAG operates in a real-time, unsupervised, black-box setting, requiring neither ground-truth references nor access to model internals, making it suitable for proprietary and high-stakes domains. The framework proceeds in four stages: (1) decompose answers into atomic factoids, (2) generate controlled mutations of each factoid using synonym and antonym substitutions, (3) verify each variant against the retrieved context (synonyms are expected to be entailed and antonyms contradicted), and (4) aggregate penalties for inconsistencies into a response-level hallucination score. Crucially for identity-aware AI, MetaRAG localizes unsupported claims at the factoid span where they occur (e.g., pregnancy-specific precautions, LGBTQ+ refugee rights, or labor eligibility), allowing users to see flagged spans and enabling system designers to configure thresholds and guardrails for identity-sensitive queries. Experiments on a proprietary enterprise dataset illustrate the effectiveness of MetaRAG for detecting hallucinations and enabling trustworthy deployment of RAG-based conversational agents. We also outline a topic-based deployment design that translates MetaRAG's span-level scores into identity-aware safeguards; this design is discussed but not evaluated in our experiments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますますエンタープライズアプリケーションにデプロイされているが、その信頼性は幻覚によって制限されている。
既存の検出アプローチであるSelfCheckGPTやMetaQAは、主にスタンドアロンのLCMをターゲットにしており、検索・拡張生成(RAG)システムのユニークな課題には対処していない。
そこで,我々はメタRAG(MetaRAG)を,検索型拡張生成(RAG)システムにおける幻覚検出のためのメタモルフィックテストフレームワークとして提案する。
MetaRAGは、リアルタイム、教師なし、ブラックボックスの設定で動作し、地味な参照もモデル内部へのアクセスも必要とせず、プロプライエタリなドメインや高レベルのドメインに適している。
この枠組みは、(1)原子ファクトイドに解答を分解し、(2)同義語と無調語置換を用いて各ファクトイドの制御突然変異を生成し、(3)検索された文脈に対して各変異を検証し(類義語は関連付けられ、無調語は矛盾すると予想される)、(4)応答レベルの幻覚スコアに不整合を集約する。
アイデンティティを意識したAIにとって、MetaRAGはサポート対象の主張を事実的範囲(妊娠固有の予防措置、LGBTQ+難民権、労働適格性など)でローカライズし、ユーザがフラグ付きスパンを見ることができるようにし、システムデザイナがアイデンティティに敏感なクエリのしきい値とガードレールを設定することを可能にする。
プロプライエタリなエンタープライズデータセットの実験では、幻覚を検出し、RAGベースの会話エージェントの信頼できるデプロイを可能にするMetaRAGの有効性が示されている。
また、MetaRAGのスパンレベルスコアをID対応セーフガードに変換するトピックベースのデプロイメント設計についても概説する。
関連論文リスト
- Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models [4.620537391830117]
大型言語モデル(LLM)は幻覚の影響を受けやすいため、誤った結果や誤解を招く可能性がある。
Retrieval-augmented Generation (RAG) は、外部知識源を活用することで幻覚を緩和する有望なアプローチである。
本稿では,POISONCRAFTと呼ばれるRAGシステムに対する中毒攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-10T09:36:28Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals [3.9139847342664864]
本稿では,RAGシステムの不正検索に対する堅牢性を評価するために設計されたファクトチェックデータセットであるRAGuardを紹介する。
RAGuardは、回収された証拠を3つのタイプに分類する。
ベンチマーク実験の結果,LLM方式のRAGシステムはすべて,ゼロショットベースラインよりも性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-02-22T05:50:15Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Trustful LLMs: Customizing and Grounding Text Generation with Knowledge Bases and Dual Decoders [5.929519489554968]
本稿では,RAGコンテキストにおける知識三重項を利用して幻覚を補正する後処理アルゴリズムを提案する。
また、RAGコンテキストを融合して生成プロセスを導出するデュアルデコーダモデルを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:26:17Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。