論文の概要: DDX-TRACE: A Benchmark for Medical Diagnostic Trajectories in VLMs
- arxiv url: http://arxiv.org/abs/2605.23629v1
- Date: Fri, 22 May 2026 13:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.370336
- Title: DDX-TRACE: A Benchmark for Medical Diagnostic Trajectories in VLMs
- Title(参考訳): DDX-TRACE : VLMにおける診断軌跡のベンチマーク
- Authors: Jiazhen Pan, Weixiang Shen, Jun Li, Julian Canisius, Felix Bitzer, Paula Roßmüller, Jiancheng Yang, Virginie Kreutzinger, Daniel Rueckert, Benedikt Wiestler,
- Abstract要約: ほとんどの医療AIベンチマークは、関連するコンテキストを事前に明らかにし、最終回答のみをスコア付けする。
MDX-TRACEはマルチモーダル・ニューロラジオロジーのための医師適応型ベンチマークである。
211件の難治性症例に対して、隠れた証拠の下で診断の軌跡を評価する。
- 参考スコア(独自算出の注目度): 21.52456139726765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical diagnosis is not a single prediction from a fully specified vignette. It is a sequential workup: clinicians decide what evidence to obtain, revise a differential diagnosis, and stop when the diagnosis is sufficiently supported. Most medical AI benchmarks instead reveal the relevant context upfront and score only the final answer, making unsupported correct guesses, premature closure, inefficient workups, and poor uncertainty updating invisible. We introduce DDX-TRACE, a physician-adjudicated benchmark for multimodal neuroradiology that evaluates diagnostic trajectories under hidden evidence over 211 challenging cases. Each case begins with limited clinical history; models request imaging studies in free form, receive matched image bundles when available, update a probabilistic differential diagnosis after each turn, and stop with a localized final diagnosis. Evaluating state-of-the-art VLMs, we find that final diagnosis scores can substantially misrepresent workup quality: models may guess plausible diagnoses without essential evidence, request useful studies but misinterpret raw images, or acquire evidence inefficiently while updating uncertainty poorly. Controlled evidence variants isolate bottlenecks in planning, visual evidence extraction, and downstream differential reasoning. DDX-TRACE shifts medical AI evaluation from final answers to evidence-supported diagnostic trajectories.
- Abstract(参考訳): 医学的診断は、完全に特定されたヴィグネットからの単一の予測ではない。
臨床医は、どの証拠を得るかを決め、鑑別診断を修正し、診断が十分に支持されたときに停止する。
ほとんどの医療AIベンチマークは、関連するコンテキストを事前に明らかにし、最終回答のみをスコアし、正確な推測、早期閉鎖、非効率なワークアップ、不確かさが見えないようにしている。
DDX-TRACE(MDX-TRACE)は, 211例の難治性症例に対して, 隠れた証拠の下で診断軌跡を評価する多モード神経放射線学の医師適応ベンチマークである。
モデルでは、フリーフォームで画像研究を依頼し、利用可能なときに一致した画像束を受信し、各ターン後に確率的鑑別診断を更新し、局所的な最終診断で停止する。
最新のVLMを評価すると、最終的な診断スコアがワークアップの品質を著しく誤って表現できることが判明した。モデルでは、本質的な証拠を伴わずに、有効な研究を依頼するが、生画像の誤読や、不確実性を未然に発見しながら、証拠を非効率に取得することができる。
制御されたエビデンス変種は、計画、視覚的エビデンス抽出、下流の微分推論においてボトルネックを分離する。
DDX-TRACEは、医療AIの評価を最終回答からエビデンスに支えられた診断軌道にシフトする。
関連論文リスト
- MultiDx: A Multi-Source Knowledge Integration Framework towards Diagnostic Reasoning [66.94527468532843]
2段階の診断推論フレームワークであるMultiDxを提案する。
まず Web 検索,SOAP 形式の症例,臨床症例データベースから知識を活用することにより,疑わしい診断と推論経路を生成する。
そして、マッチング、投票、および差分診断を通じて、複数のパースペクティブエビデンスを統合し、最終的な予測を生成する。
論文 参考訳(メタデータ) (2026-04-27T08:46:29Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - Sequential Diagnosis with Language Models [21.22416732642907]
本稿では,304症例を段階的に診断するシークエンシャル診断ベンチマークを紹介する。
成績は、診断精度だけでなく、医師の診察や検査の費用によって評価される。
また,医師のパネルを模擬したモデル診断オーケストレータであるMAI診断オーケストレータ(MAI-DxO)についても紹介する。
論文 参考訳(メタデータ) (2025-06-27T17:27:26Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - Xplainer: From X-Ray Observations to Explainable Zero-Shot Diagnosis [36.45569352490318]
臨床現場でのゼロショット診断のためのフレームワークであるXplainerを紹介した。
Xplainerは、コントラッシブ・ビジョン言語モデルの分類・記述アプローチをマルチラベル診断タスクに適用する。
我々の結果は、Xplainerが意思決定プロセスをより詳細に理解していることを示唆している。
論文 参考訳(メタデータ) (2023-03-23T16:07:31Z) - DxFormer: A Decoupled Automatic Diagnostic System Based on
Decoder-Encoder Transformer with Dense Symptom Representations [26.337392652262103]
診断指向対話システムは患者の健康状態を照会し、患者との継続的な対話を通じて疾患の予測を行う。
本稿では,診断プロセスを症状調査と疾患診断の2つの段階に分割する,分離された自動診断フレームワークDxFormerを提案する。
提案モデルは,医師の臨床経験を効果的に学習し,症状のリコールと診断精度の点で最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2022-05-08T01:52:42Z) - Towards Causality-Aware Inferring: A Sequential Discriminative Approach
for Medical Diagnosis [142.90770786804507]
医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。
この研究は、因果図を利用して、MDAにおけるこれらの重要な問題に対処しようとする。
本稿では,他の記録から知識を引き出すことにより,非記録的調査に効果的に答える確率に基づく患者シミュレータを提案する。
論文 参考訳(メタデータ) (2020-03-14T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。