論文の概要: CARE-RAG - Clinical Assessment and Reasoning in RAG
- arxiv url: http://arxiv.org/abs/2511.15994v1
- Date: Thu, 20 Nov 2025 02:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.44088
- Title: CARE-RAG - Clinical Assessment and Reasoning in RAG
- Title(参考訳): CARE-RAG : RAGの臨床評価と推論
- Authors: Deepthi Potluri, Aby Mammen Mathew, Jeffrey B DeWitt, Alexander L. Rasgon, Yide Hao, Junyuan Hong, Ying Ding,
- Abstract要約: 大規模言語モデル(LLM)における検索と推論のギャップについて検討する。
推論の正確性,一貫性,忠実度を計測する評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.1450755645803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Access to the right evidence does not guarantee that large language models (LLMs) will reason with it correctly. This gap between retrieval and reasoning is especially concerning in clinical settings, where outputs must align with structured protocols. We study this gap using Written Exposure Therapy (WET) guidelines as a testbed. In evaluating model responses to curated clinician-vetted questions, we find that errors persist even when authoritative passages are provided. To address this, we propose an evaluation framework that measures accuracy, consistency, and fidelity of reasoning. Our results highlight both the potential and the risks: retrieval-augmented generation (RAG) can constrain outputs, but safe deployment requires assessing reasoning as rigorously as retrieval.
- Abstract(参考訳): 正しいエビデンスにアクセスすることは、大きな言語モデル(LLM)が正しく理にかなっていることを保証しない。
この検索と推論のギャップは、特に、アウトプットが構造化されたプロトコルと整合する必要がある臨床環境において関係している。
We study this gap using Written Exposure Therapy (WET) guidelines as a testbed。
臨床検診に対するモデル応答の評価において, 信頼性パスが提供された場合でも, 誤差が持続することがわかった。
そこで本稿では, 精度, 一貫性, 忠実度を計測する評価フレームワークを提案する。
検索強化生成(RAG)は出力を制約することができるが、安全な配置には、検索と同じくらい厳格に推論を評価する必要がある。
関連論文リスト
- Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - Evaluating the Robustness of Retrieval-Augmented Generation to Adversarial Evidence in the Health Domain [8.094811345546118]
Retrieval augmented generation (RAG) システムは、検索された証拠や文脈を支援として提供することにより、Large Language Model (LLM) の応答を現実的に根拠付ける方法を提供する。
LLMは、回収された証拠に存在する誤報を吸収し、再生する。
この問題は、抽出された証拠が、誤報を公布することを明示的に意図した敵対的な材料を含むと拡大される。
論文 参考訳(メタデータ) (2025-09-04T00:45:58Z) - Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - Controlled Retrieval-augmented Context Evaluation for Long-form RAG [58.14561461943611]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得したコンテキストを組み込むことで、大規模言語モデルを強化する。
我々は、レポート生成のような長期RAGタスクにおいて、包括的な検索強化コンテキストを提供することが重要であると論じる。
本稿では,検索拡張コンテキストを直接評価するフレームワークであるCRUXを紹介する。
論文 参考訳(メタデータ) (2025-06-24T23:17:48Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Medical Reasoning in LLMs: An In-Depth Analysis of DeepSeek R1 [0.0]
本研究は、100症例のMedQAを用いて、DeepSeek R1の専門的パターンに対する医学的推論を評価する。
このモデルは、診断精度93%を達成し、鑑別診断、ガイドラインに基づく治療選択、患者固有の因子の統合を通じて、体系的な臨床的判断を実証した。
誤り分析では, バイアスのアンカー, 競合するデータの整合性の課題, 代替案の探索不足, 過剰思考, 知識ギャップ, 中間的治療に対する決定的治療の早期優先順位付けなど, 持続的な限界が認められた。
論文 参考訳(メタデータ) (2025-03-27T09:18:08Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。