論文の概要: Med3D-R1: Incentivizing Clinical Reasoning in 3D Medical Vision-Language Models for Abnormality Diagnosis
- arxiv url: http://arxiv.org/abs/2602.01200v1
- Date: Sun, 01 Feb 2026 12:43:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.657056
- Title: Med3D-R1: Incentivizing Clinical Reasoning in 3D Medical Vision-Language Models for Abnormality Diagnosis
- Title(参考訳): Med3D-R1 : 異常診断のための3次元医用ビジョンランゲージモデルにおける臨床推論のインセンティブ
- Authors: Haoran Lai, Zihang Jiang, Kun Zhang, Qingsong Yao, Rongsheng Wang, Zhiyang He, Xiaodong Tao, Wei Wei, Shaohua Kevin Zhou,
- Abstract要約: 我々は,2段階の学習プロセスを持つ強化学習フレームワークを提案する: 教師付きファインチューニング(SFT)と強化学習(RL)。
RLの段階では、整合性報酬を再定義し、整合性、ステップバイステップの診断推論を明示的に促進する。
本モデルではCT-RATEでは41.92%,RAD-ChestCTでは44.99%の精度が得られた。
- 参考スコア(独自算出の注目度): 20.302134776419955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing 3D vision-language models with robust clinical reasoning remains a challenge due to the inherent complexity of volumetric medical imaging, the tendency of models to overfit superficial report patterns, and the lack of interpretability-aware reward designs. In this paper, we propose Med3D-R1, a reinforcement learning framework with a two-stage training process: Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). During SFT stage, we introduce a residual alignment mechanism to bridge the gap between high-dimensional 3D features and textual embeddings, and an abnormality re-weighting strategy to emphasize clinically informative tokens and reduce structural bias in reports. In RL stage, we redesign the consistency reward to explicitly promote coherent, step-by-step diagnostic reasoning. We evaluate our method on medical multiple-choice visual question answering using two 3D diagnostic benchmarks, CT-RATE and RAD-ChestCT, where our model attains state-of-the-art accuracies of 41.92\% on CT-RATE and 44.99\% on RAD-ChestCT. These results indicate improved abnormality diagnosis and clinical reasoning and outperform prior methods on both benchmarks. Overall, our approach holds promise for enhancing real-world diagnostic workflows by enabling more reliable and transparent 3D medical vision-language systems.
- Abstract(参考訳): 堅牢な臨床推論を伴う3次元視覚言語モデルの開発は、ボリューム医療画像の固有の複雑さ、表面的なレポートパターンに適合するモデルの傾向、解釈可能性に配慮した報酬設計の欠如など、依然として課題である。
本稿では,2段階の学習プロセスを持つ強化学習フレームワークであるMed3D-R1(Supervised Fine-Tuning,SFT)と強化学習(Reinforcement Learning,RL)を提案する。
SFT期には,高次元の3次元特徴とテキスト埋め込みのギャップを埋める残留アライメント機構と,臨床的に有意なトークンを強調する異常再重み付け戦略を導入し,報告における構造バイアスを低減する。
RLの段階では、整合性報酬を再定義し、整合性、ステップバイステップの診断推論を明示的に促進する。
我々は,CT-RATE と RAD-ChestCT の2つの診断基準を用いて,CT-RATE では 41.92 %,RAD-ChestCT では 44.99 % の精度を得られた。
これらの結果から, 異常診断, 臨床推論の精度が向上し, 両ベンチマークの先行手法に優れていたことが示唆された。
全体として、我々のアプローチは、より信頼性が高く透明な3D医療ビジョン言語システムを実現することで、現実世界の診断ワークフローを強化することを約束している。
関連論文リスト
- MedAD-R1: Eliciting Consistent Reasoning in Interpretible Medical Anomaly Detection via Consistency-Reinforced Policy Optimization [46.65200216642429]
我々はMedADの最初の大規模マルチモーダル・マルチセンタベンチマークであるMedAD-38Kを紹介し、構造化された視覚質問応答(VQA)ペアとともに、CoT(Chain-of-Thought)アノテーションを特徴付ける。
提案するモデルであるMedAD-R1は、MedAD-38Kベンチマーク上での最先端(SOTA)性能を実現し、強いベースラインを10%以上上回った。
論文 参考訳(メタデータ) (2026-02-01T07:56:10Z) - M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Expert-Guided Explainable Few-Shot Learning for Medical Image Diagnosis [2.7946918847372277]
本稿では,放射線技師が提案する関心領域をモデルトレーニングに統合する,専門家による説明可能な数ショット学習フレームワークを提案する。
我々は、BraTS(MRI)とVinDr-CXR(Chest X-ray)の2つの異なるデータセット上で、我々のフレームワークを評価する。
本研究は, 少数症例の医用画像診断において, 評価と解釈のギャップを埋めるために, 専門家が指導する注意指導を取り入れることの有効性を実証するものである。
論文 参考訳(メタデータ) (2025-09-08T05:31:37Z) - Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining [1.447808799346751]
本稿では,3次元コントラッシブな視覚-言語事前学習方式と潜在拡散モデルを組み合わせたテキスト-CT生成のための新しいアーキテクチャを提案する。
本手法は,テキストから臨床的に有意なCTボリュームを合成するための,スケーラブルで制御可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-31T16:41:55Z) - Abnormality-Driven Representation Learning for Radiology Imaging [0.8321462983924758]
病変強調型コントラスト学習(LeCL)は,CTスキャンの異なる部位にわたる2次元軸方向スライスにおける異常により引き起こされる視覚的表現を得るための新しい手法である。
本研究は, 腫瘍病変位置, 肺疾患検出, 患者ステージングの3つの臨床的課題に対するアプローチを, 最先端の4つの基礎モデルと比較した。
論文 参考訳(メタデータ) (2024-11-25T13:53:26Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Deep Implicit Statistical Shape Models for 3D Medical Image Delineation [47.78425002879612]
解剖学的構造の3次元デライン化は、医用画像解析の基本的な目標である。
ディープラーニング以前は、解剖学的制約を課し高品質の表面を作り出す統計的形状モデルはコア技術だった。
我々は,CNNの表現力とSSMの頑健さを合体させるデライン化の新しい手法であるディープ暗黙的統計的形状モデル(DISSMs)を提案する。
論文 参考訳(メタデータ) (2021-04-07T01:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。