論文の概要: MedTVT-R1: A Multimodal LLM Empowering Medical Reasoning and Diagnosis
- arxiv url: http://arxiv.org/abs/2506.18512v1
- Date: Mon, 23 Jun 2025 11:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.949503
- Title: MedTVT-R1: A Multimodal LLM Empowering Medical Reasoning and Diagnosis
- Title(参考訳): MedTVT-R1:医学的推論と診断を兼ね備えたマルチモーダルLCM
- Authors: Yuting Zhang, Kaishen Yuan, Hao Lu, Yutao Yue, Jintai Chen, Kaishun Wu,
- Abstract要約: MedTVT-R1は臨床用マルチモーダルデータを統合して複数の疾患の推論と診断を行うためのフレームワークである。
MedTVT-QAは,生理学レベルの解釈と疾患レベルの診断のための質問応答ペアを提供する。
MedTVT-R1のマルチモーダル特徴利用とマルチディスリーズ診断における優位性を示す実験結果を得た。
- 参考スコア(独自算出の注目度): 17.346802977243964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and interpretable multi-disease diagnosis remains a critical challenge in medical research, particularly when leveraging heterogeneous multimodal medical data. Current approaches often rely on single-modal data, limiting their ability to comprehensively understand complex diseases. To address this, we propose MedTVT-R1, a novel Multimodal Large Language Model (MLLM) framework designed to integrate clinical multimodal data for reasoning and diagnosing multiple diseases. We construct MedTVT-QA, a curated instruction dataset that provides question-answer pairs for physiological-level interpretations and disease-level diagnoses with a Chain of Evidence approach. MedTVT-R1 incorporates a modality perception layer to capture inter-modal dependencies and adaptively weight modality contributions. Additionally, we employ Group Relative Policy Optimization (GRPO)-based Reinforcement Fine-Tuning with a Jaccard Reward function to enhance diagnostic reasoning. Experimental results demonstrate MedTVT-R1's superiority in multimodal feature utilization and multi-disease diagnosis, offering significant potential for clinical applications such as diagnostic report generation and comorbidity reasoning. The dataset and code are available at https://github.com/keke-nice/MedTVT-R1.
- Abstract(参考訳): 不均一なマルチモーダル医療データを活用する場合、医療研究において、正確かつ解釈可能なマルチディスリーズ診断は依然として重要な課題である。
現在のアプローチはしばしば単一モーダルデータに依存し、複雑な疾患を包括的に理解する能力を制限する。
そこで我々は,MedTVT-R1を提案する。MLLM(Multimodal Large Language Model)フレームワークは臨床用マルチモーダルデータを統合し,複数の疾患の推論と診断を行う。
MedTVT-QAは、生理レベルの解釈と病気レベルの診断のための質問応答ペアを、チェイン・オブ・エビデンス(Chain of Evidence)アプローチで提供する、キュレートされたインストラクションデータセットである。
MedTVT-R1は、モダリティ知覚層を組み込んで、モダリティ間の依存関係を捉え、適応的にモダリティの寄与を重くする。
さらに,グループ相対政策最適化(GRPO)に基づく強化ファインチューニングとジャカード・リワード機能を採用し,診断的推論を強化した。
MedTVT-R1のマルチモーダル特徴利用とマルチディスリーズ診断における優位性を実証し,診断報告生成や相補性推論などの臨床応用に有意な可能性を示唆した。
データセットとコードはhttps://github.com/keke-nice/MedTVT-R1で公開されている。
関連論文リスト
- NeuroMoE: A Transformer-Based Mixture-of-Experts Framework for Multi-Modal Neurological Disorder Classification [3.5313393560458826]
Deep Learningは最近、診断を助けるために医療データから意味のあるパターンを抽出する強力なツールとして登場した。
神経疾患を分類するための新しいトランスフォーマーベースのMixture-of-Experts(MoE)フレームワークを提案する。
我々のフレームワークは82.47%の検証精度を達成し、ベースライン法を10%以上上回っている。
論文 参考訳(メタデータ) (2025-06-17T20:40:06Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Decoding Rarity: Large Language Models in the Diagnosis of Rare Diseases [1.9662978733004604]
大型言語モデル(LLM)は稀な疾患研究を変革する有望な能力を示している。
本稿では,レアな疾患の解析におけるLSMの統合について検討し,重要な進歩と重要な研究を取り上げる。
論文 参考訳(メタデータ) (2025-05-18T15:42:15Z) - A Learnable Multi-views Contrastive Framework with Reconstruction Discrepancy for Medical Time-Series [8.741139851597364]
本稿では、関連するタスクから外部データを取り込み、AE-GANを利用して事前知識を抽出することを提案する。
マルチヘッドアテンション機構を統合し,異なる視点から表現を適応的に学習するフレームワークであるLMCFを紹介する。
3つのターゲットデータセットの実験により、我々の手法が他の7つのベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-01-30T14:20:11Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Tensor-Based Multi-Modality Feature Selection and Regression for
Alzheimer's Disease Diagnosis [25.958167380664083]
アルツハイマー病(AD)と軽度認知障害(MCI)の診断・バイオマーカー同定のための新しいテンソルベース多モード特徴選択と回帰法を提案する。
3つの画像モダリティを用いたADNIデータ解析における本手法の実用的利点について述べる。
論文 参考訳(メタデータ) (2022-09-23T02:17:27Z) - MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。
本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。
テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文 参考訳(メタデータ) (2022-02-09T04:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。