論文の概要: Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG
- arxiv url: http://arxiv.org/abs/2605.29084v1
- Date: Wed, 27 May 2026 20:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.451535
- Title: Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG
- Title(参考訳): 同じ質問、異なるソース、異なる回答:医療用マルチソースRAGにおけるソース依存性の検討
- Authors: Yubo Li, Rema Padman, Ramayya Krishnan,
- Abstract要約: 検索拡張生成(RAG)システムは、どのソースから取得するかによって、同じ質問に対して異なる回答を与えることができる。
情報源依存性はNLP評価の欠落軸であり,評価単位を回答の正しさからソース間関係へシフトさせることを意味する,と我々は主張する。
- 参考スコア(独自算出の注目度): 8.86745721473138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.
- Abstract(参考訳): 複数権限を持つ機関のコーパス上に展開される検索強化世代(RAG)システムは、どのソースから取得するかによって、同じ質問に対して異なる回答を与えることができる。
情報源依存性はNLP評価の欠落軸であり,評価単位を回答の正しさからソース間関係へシフトさせることを意味する,と我々は主張する。
移植患者教育において, この具体例を具体化し, 機関筋が明らかに反対する3つの成果を公表する: 移植QA, 実際の患者質問のベンチマーク, それぞれが複数の機関のハンドブックを候補として生成して回答する; HERO-QA, それぞれの回答を根拠と監査を行う階層的検索戦略, 検証された5ラベル分類に基づいてソース間関係をスコアする構造化アウトプット・ジャッジ。
大規模な検索では、前回の予想よりもはるかに多くの不一致が示され、その強さではなく、その有病率を推定している。
このフレームワークはドメインに依存しず、法的および教育的なRAGに転送する: ソース依存性を測定することは、一般的にマルチソースNLPをデプロイする責任である。
関連論文リスト
- Knowledge Dependency Estimation for Reliable Question Answering [11.800158247203312]
我々はemphknowledge依存性の推定について研究する
構造化されたランク認識型知識依存度推定器である textbfKnot を提案する。
論文 参考訳(メタデータ) (2026-05-27T06:48:57Z) - Helicase: Uncertainty-Guided Supply Chain Knowledge Graph Construction with Autonomous Multi-Agent LLMs [48.08345972608737]
textitHelicaseは、不確実性誘導サプライチェーン知識グラフ構築のための自律型マルチエージェントシステムである。
高レベルのサプライチェーンクエリを実行可能な調査計画に分解し、特別なWeb検索、推論、コーディングエージェントをコーディネートする。
その3層不確実性フレームワークは、動作、軌道、記憶層の不確実性を追跡し、構造的推論とキャリブレーションされた信頼性評価の両方を可能にする。
論文 参考訳(メタデータ) (2026-05-26T10:53:00Z) - Towards Dependable Retrieval-Augmented Generation Using Factual Confidence Prediction [0.28932261919131014]
検索プロセスの事実性に関する有意義な信頼度と生成した回答を関連付けることが重要である。
本稿では,新たな2段階の手法を提案する。
我々の研究は、幅広い自然言語産業応用のための新しいタイプの認証されたRAGシステムを確立するのに役立ちます。
論文 参考訳(メタデータ) (2026-05-04T11:28:19Z) - When Iterative RAG Beats Ideal Evidence: A Diagnostic Study in Scientific Multi-hop Question Answering [0.2796197251957245]
我々は,同期反復検索と推論が,理想化された静的上界(Gold Context)RAGを超えることができるかどうかを考察した。
我々は,<i>No Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Iterative RAG</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>I。
モデル全体では、Iterative RAGはゴールドコンテキストを一貫して上回り、特に非推論では最大25.6ポイントまで上昇する。
論文 参考訳(メタデータ) (2026-01-27T17:35:05Z) - MuISQA: Multi-Intent Retrieval-Augmented Generation for Scientific Question Answering [16.26521741515184]
Multi-Intent Scientific Question Answering (MuISQA) ベンチマークは、サブクエストにおける不均一なエビデンスカバレッジに基づくRAGシステムの評価を目的としている。
さらに,大規模言語モデル(LLM)を利用した意図認識検索フレームワークを提案する。
MuISQAベンチマークおよび他の一般RAGデータセットを用いた実験により,本手法は従来手法,特に検索精度および証拠カバレッジにおいて,常に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-20T12:03:36Z) - Seeing Through the MiRAGE: Evaluating Multimodal Retrieval Augmented Generation [75.66731090275645]
マルチモーダルソースからの検索拡張生成(RAG)評価フレームワークであるMiRAGEを紹介する。
MiRAGEは、InfoF1とCiteF1で構成されるマルチモーダルRAG評価のためのクレーム中心のアプローチである。
論文 参考訳(メタデータ) (2025-10-28T18:21:19Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。
3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文 参考訳(メタデータ) (2025-03-11T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。