論文の概要: MedCEG: Reinforcing Verifiable Medical Reasoning with Critical Evidence Graph
- arxiv url: http://arxiv.org/abs/2512.13510v1
- Date: Mon, 15 Dec 2025 16:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.758618
- Title: MedCEG: Reinforcing Verifiable Medical Reasoning with Critical Evidence Graph
- Title(参考訳): MedCEG: クリティカルエビデンスグラフによる検証可能な医療推論の強化
- Authors: Linjie Mu, Yannian Gu, Zhongzhen Huang, Yakun Zhu, Shaoting Zhang, Xiaofan Zhang,
- Abstract要約: MedCEGは医療言語モデルに臨床的に有効な推論経路を付加するフレームワークである。
推論プロセスの指針として,臨床推論手順の見直しを紹介する。
実験結果から,MedCEGは臨床的に妥当な推論鎖を産生しながら,既存の方法を上回る性能を示した。
- 参考スコア(独自算出の注目度): 17.320322032287894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models with reasoning capabilities have demonstrated impressive performance across a wide range of domains. In clinical applications, a transparent, step-by-step reasoning process provides physicians with strong evidence to support decision-making. While reinforcement learning has effectively enhanced reasoning performance in medical contexts, the clinical reliability of these reasoning processes remains limited because their accuracy and validity are often overlooked during training. To address this gap, we propose MedCEG, a framework that augments medical language models with clinically valid reasoning pathways by explicitly supervising the reasoning process through a Critical Evidence Graph (CEG). We curate a dataset of challenging clinical cases and algorithmically construct a CEG for each sample to represent a high-quality verifiable reasoning pathway. To guide the reasoning process, we introduce a Clinical Reasoning Procedure Reward, which evaluates Node Coverage, Structural Correctness, and Chain Completeness, thereby providing a holistic assessment of reasoning quality. Experimental results show that MedCEG surpasses existing methods in performance while producing clinically valid reasoning chains, representing a solid advancement in reliable medical AI reasoning. The code and models are available at https://github.com/LinjieMu/MedCEG.
- Abstract(参考訳): 推論機能を備えた大規模言語モデルは、幅広い領域で素晴らしいパフォーマンスを示している。
臨床応用において、透明でステップバイステップの推論プロセスは、医師に意思決定を支援する強力な証拠を提供する。
強化学習は医学的文脈における推論性能を効果的に向上させたが、これらの推論プロセスの信頼性は、トレーニング中にその正確性や妥当性がしばしば見過ごされるため、制限されている。
このギャップに対処するため,批判的エビデンスグラフ (CEG) を通じて推論過程を明示的に監督することにより,臨床的に有効な推論経路を医療言語モデルに拡張するフレームワーク MedCEG を提案する。
課題のある臨床症例のデータセットをキュレートし、各サンプルに対してアルゴリズム的にCEGを構築し、高品質な検証可能な推論経路を示す。
推論プロセスの指針として,ノードカバレッジ,構造的正確性,チェーン完全性を評価し,推論品質を総合的に評価するクリニカル・推論・プロシージャ・リワードを導入する。
実験の結果,MedCEGは,信頼性の高い医療用AI推論の確立を反映し,臨床的に有効な推論チェーンを生産しながら,既存の方法を上回る性能を示した。
コードとモデルはhttps://github.com/LinjieMu/MedCEG.comで公開されている。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - MedCoT-RAG: Causal Chain-of-Thought RAG for Medical Question Answering [4.285647375182588]
大規模言語モデル (LLM) は医学的な疑問に答える上で有望であるが、幻覚や浅い推論に苦しむことが多い。
Retrieval-augmented Generation (RAG)は、外部の医療知識でLSMを強化するための実用的でプライバシー保護の手段を提供する。
MedCoT-RAGは、因果認識ドキュメント検索と構造化チェーン・オブ・シークレット・プロンプトを組み合わせたドメイン固有フレームワークである。
論文 参考訳(メタデータ) (2025-08-20T05:43:26Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Integrating clinical reasoning into large language model-based diagnosis through etiology-aware attention steering [7.092919468004549]
LLM(Large Language Models)は、医学的テキスト理解と生成において重要な機能を示す。
本研究の目的は,LSMの診断精度と臨床推論能力を高めることである。
論文 参考訳(メタデータ) (2025-08-01T03:05:43Z) - ControlMed: Adding Reasoning Control to Medical Language Model [1.0207955314209531]
医療領域において、精度と説明性を高めた大規模言語モデル(LLM)の推論が採用されつつある。
既存の推論 LLM は、必要以上に長い推論プロセスを生成し、計算オーバーヘッドと応答遅延を増大させる。
推論時に推論プロセスの長さをアクティブに制御できる医療言語モデルである textbfControlMed を導入する。
論文 参考訳(メタデータ) (2025-07-30T10:17:07Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。