論文の概要: RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis
- arxiv url: http://arxiv.org/abs/2509.19980v1
- Date: Wed, 24 Sep 2025 10:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.780481
- Title: RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis
- Title(参考訳): RAD: 信頼できる検索・拡張型マルチモーダル臨床診断を目指して
- Authors: Haolin Li, Tianjie Dai, Zhe Chen, Siyuan Du, Jiangchao Yao, Ya Zhang, Yanfeng Wang,
- Abstract要約: Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
- 参考スコア(独自算出の注目度): 56.373297358647655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical diagnosis is a highly specialized discipline requiring both domain expertise and strict adherence to rigorous guidelines. While current AI-driven medical research predominantly focuses on knowledge graphs or natural text pretraining paradigms to incorporate medical knowledge, these approaches primarily rely on implicitly encoded knowledge within model parameters, neglecting task-specific knowledge required by diverse downstream tasks. To address this limitation, we propose Retrieval-Augmented Diagnosis (RAD), a novel framework that explicitly injects external knowledge into multimodal models directly on downstream tasks. Specifically, RAD operates through three key mechanisms: retrieval and refinement of disease-centered knowledge from multiple medical sources, a guideline-enhanced contrastive loss that constrains the latent distance between multi-modal features and guideline knowledge, and the dual transformer decoder that employs guidelines as queries to steer cross-modal fusion, aligning the models with clinical diagnostic workflows from guideline acquisition to feature extraction and decision-making. Moreover, recognizing the lack of quantitative evaluation of interpretability for multimodal diagnostic models, we introduce a set of criteria to assess the interpretability from both image and text perspectives. Extensive evaluations across four datasets with different anatomies demonstrate RAD's generalizability, achieving state-of-the-art performance. Furthermore, RAD enables the model to concentrate more precisely on abnormal regions and critical indicators, ensuring evidence-based, trustworthy diagnosis. Our code is available at https://github.com/tdlhl/RAD.
- Abstract(参考訳): 臨床診断は、専門分野の専門知識と厳格なガイドラインの厳格な遵守を必要とする専門分野である。
現在のAI主導の医学研究は、主に医学知識を組み込むための知識グラフや自然テキスト事前学習パラダイムに焦点を当てているが、これらのアプローチは主にモデルパラメータ内の暗黙的に符号化された知識に依存しており、様々な下流タスクで必要とされるタスク固有の知識を無視している。
この制限に対処するために、下流タスク上で外部知識を直接マルチモーダルモデルに注入する新しいフレームワークであるRetrieval-Augmented Diagnosis (RAD)を提案する。
具体的には、複数の医療ソースからの疾患中心の知識の検索と改善、マルチモーダル特徴とガイドライン知識の間の潜伏距離を制限するガイドライン強化コントラスト損失、ガイドラインをクエリとして用いたデュアルトランスフォーマーデコーダ、ガイドライン取得から特徴抽出と意思決定までの臨床診断ワークフローとモデルを整合させる。
さらに,マルチモーダル診断モデルにおける解釈可能性の定量的評価が欠如していることを認識し,画像とテキストの両方の観点から解釈可能性を評価するための一連の基準を導入する。
解剖学的に異なる4つのデータセットにわたる広範囲な評価は、RADの一般化可能性を示し、最先端のパフォーマンスを達成する。
さらに、RADはモデルが異常な領域や重要な指標により正確に集中し、証拠に基づく信頼できる診断を確実にすることを可能にする。
私たちのコードはhttps://github.com/tdlhl/RAD.comで公開されています。
関連論文リスト
- A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making [49.048767633316764]
KAMACは知識駆動のAdaptive Multi-Agent Collaborationフレームワークである。
エージェントは進化する診断コンテキストに基づいて、専門家チームを動的に形成および拡張することができる。
2つの実世界の医療ベンチマーク実験により、KAMACはシングルエージェント法と高度なマルチエージェント法の両方を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-18T14:33:36Z) - Enriched text-guided variational multimodal knowledge distillation network (VMD) for automated diagnosis of plaque vulnerability in 3D carotid artery MRI [20.623198882452986]
我々は,放射線医の領域知識を活用して頸動脈プラークの脆弱性の診断を自動化する戦略を開発した。
この方法は、訓練データ内の限られた画像アノテーションや放射線学レポートから、モダリティの事前知識を活用するのに優れている。
論文 参考訳(メタデータ) (2025-09-15T13:38:35Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement [1.6355783973385114]
多視点認識知識強化型TansfoRmer(MvKeTR)
複数の解剖学的ビューから診断情報を効果的に合成するために、ビューアウェアのMVPAを提案する。
クエリボリュームに基づいて、最も類似したレポートを取得するために、Cross-Modal Knowledge Enhancer (CMKE) が考案されている。
論文 参考訳(メタデータ) (2024-11-27T12:58:23Z) - Knowledge-enhanced Visual-Language Pre-training on Chest Radiology
Images [40.52487429030841]
胸部X線と放射線検査を用いた視力監督前訓練のための知識強調型自動診断(KAD)を提案する。
我々は、4つの外部X線データセット上でKADを評価し、そのゼロショット性能が完全言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:53:10Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。