論文の概要: When Evidence Contradicts: Toward Safer Retrieval-Augmented Generation in Healthcare
- arxiv url: http://arxiv.org/abs/2511.06668v1
- Date: Mon, 10 Nov 2025 03:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.057241
- Title: When Evidence Contradicts: Toward Safer Retrieval-Augmented Generation in Healthcare
- Title(参考訳): Evidence Contradicts: to Safer Retrieval-Augmented Generation in Healthcare
- Authors: Saeedeh Javadi, Sara Mirabi, Manan Gangar, Bahadorreza Ofoghi,
- Abstract要約: 本研究では,医学関連クエリに対する応答生成における5つの大規模言語モデル(LLM)の性能について検討する。
以上の結果から,非常に類似した抽象概念間の矛盾は,実際に性能を低下させ,不整合を招き,モデル解答の事実的精度を低下させることが示された。
- 参考スコア(独自算出の注目度): 0.05249805590164902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In high-stakes information domains such as healthcare, where large language models (LLMs) can produce hallucinations or misinformation, retrieval-augmented generation (RAG) has been proposed as a mitigation strategy, grounding model outputs in external, domain-specific documents. Yet, this approach can introduce errors when source documents contain outdated or contradictory information. This work investigates the performance of five LLMs in generating RAG-based responses to medicine-related queries. Our contributions are three-fold: i) the creation of a benchmark dataset using consumer medicine information documents from the Australian Therapeutic Goods Administration (TGA), where headings are repurposed as natural language questions, ii) the retrieval of PubMed abstracts using TGA headings, stratified across multiple publication years, to enable controlled temporal evaluation of outdated evidence, and iii) a comparative analysis of the frequency and impact of outdated or contradictory content on model-generated responses, assessing how LLMs integrate and reconcile temporally inconsistent information. Our findings show that contradictions between highly similar abstracts do, in fact, degrade performance, leading to inconsistencies and reduced factual accuracy in model answers. These results highlight that retrieval similarity alone is insufficient for reliable medical RAG and underscore the need for contradiction-aware filtering strategies to ensure trustworthy responses in high-stakes domains.
- Abstract(参考訳): 大規模言語モデル(LLM)が幻覚や誤報を生成できる医療などの高度な情報領域では、検索強化世代(RAG)が緩和戦略として提案され、外部のドメイン固有の文書にモデル出力を基礎付けている。
しかし、このアプローチは、ソース文書に古い情報や矛盾した情報が含まれている場合にエラーを起こす可能性がある。
本研究は,医学関連クエリに対するRAGに基づく応答生成における5つのLCMの性能について検討する。
私たちの貢献は3倍です。
一 オーストラリア医療財管理局(TGA)の消費者医療情報資料を用いたベンチマークデータセットの作成で、その見出しを自然言語の質問として再利用すること。
二 時代遅れの証拠の時間的評価を可能にするため、何年にもわたって整理されたTGAヘッダを用いたPubMed要約の検索
三 老朽化又は矛盾した内容がモデル生成反応に与える影響を比較分析し、LCMが時間的不整合情報をどのように統合し、調整するかを評価すること。
以上の結果から,非常に類似した抽象概念間の矛盾は,実際に性能を低下させ,不整合を招き,モデル解答の事実的精度を低下させることが示された。
これらの結果は、検索類似性だけでは信頼性の高い医療RAGには不十分であり、高信頼領域における信頼性の高い応答を保証するための矛盾認識フィルタリング戦略の必要性を浮き彫りにしている。
関連論文リスト
- MedTrust-RAG: Evidence Verification and Trust Alignment for Biomedical Question Answering [21.855579328680246]
MedTrust-Guided Iterative RAGは,医療用QAにおける事実整合性と幻覚を高めるためのフレームワークである。
第一に、検索された医療文書に、すべての生成されたコンテンツを明示的に根拠付けることを要求することにより、引用認識推論を強制する。
第2に、検証エージェントが証拠の妥当性を評価する反復的な検索検証プロセスを採用する。
論文 参考訳(メタデータ) (2025-10-16T07:59:11Z) - Evaluating the Robustness of Retrieval-Augmented Generation to Adversarial Evidence in the Health Domain [8.094811345546118]
Retrieval augmented generation (RAG) システムは、検索された証拠や文脈を支援として提供することにより、Large Language Model (LLM) の応答を現実的に根拠付ける方法を提供する。
LLMは、回収された証拠に存在する誤報を吸収し、再生する。
この問題は、抽出された証拠が、誤報を公布することを明示的に意図した敵対的な材料を含むと拡大される。
論文 参考訳(メタデータ) (2025-09-04T00:45:58Z) - Controlled Retrieval-augmented Context Evaluation for Long-form RAG [58.14561461943611]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得したコンテキストを組み込むことで、大規模言語モデルを強化する。
我々は、レポート生成のような長期RAGタスクにおいて、包括的な検索強化コンテキストを提供することが重要であると論じる。
本稿では,検索拡張コンテキストを直接評価するフレームワークであるCRUXを紹介する。
論文 参考訳(メタデータ) (2025-06-24T23:17:48Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。
3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文 参考訳(メタデータ) (2025-03-11T17:59:00Z) - Enhancing Health Information Retrieval with RAG by Prioritizing Topical Relevance and Factual Accuracy [0.7673339435080445]
本稿では, 科学的根拠に基づく健康関連文書の検索を促進するために, RAG(Retrieval-Augmented Generation)を駆使した手法を提案する。
特に,3段階のモデルを提案する。第1段階では,科学的文献によって構成された知識ベースから,利用者のクエリを用いて,関連した項目を検索する。
第2段階では、これらのパスは初期クエリとともにLLMによって処理され、コンテキストに関連のあるリッチテキスト(GenText)を生成する。
最終段階では、検索対象の文書を評価・ランク付けする。
論文 参考訳(メタデータ) (2025-02-07T05:19:13Z) - RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models [35.60385437194243]
現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。
外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。
本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。
次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-06T16:45:07Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。