論文の概要: Bridging the Gap in Ophthalmic AI: MM-Retinal-Reason Dataset and OphthaReason Model toward Dynamic Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2508.16129v2
- Date: Wed, 10 Sep 2025 08:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.158977
- Title: Bridging the Gap in Ophthalmic AI: MM-Retinal-Reason Dataset and OphthaReason Model toward Dynamic Multimodal Reasoning
- Title(参考訳): 眼科用AIのギャップを埋める:MM-Retinal-ReasonデータセットとOphthaReasonモデルによる動的マルチモーダル推論
- Authors: Ruiqi Wu, Yuang Yao, Tengfei Ma, Chenran Zhang, Na Su, Tao Zhou, Geng Chen, Wen Fan, Yi Zhou,
- Abstract要約: 本稿では,眼科用マルチモーダルデータセットMM-Retinal-Reasonについて紹介する。
MM-Retinal-Reasonに基づいて,第1の眼科特異的多モード推論モデルであるOphthaReasonを提案する。
本モデルは,基礎的および複雑な推論タスクにおいて,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 15.73558614478585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have recently demonstrated remarkable reasoning abilities with reinforcement learning paradigm. Although several multimodal reasoning models have been explored in the medical domain, most of them focus exclusively on basic reasoning, which refers to shallow inference based on visual feature matching. However, real-world clinical diagnosis extends beyond basic reasoning, demanding reasoning processes that integrate heterogeneous clinical information (such as chief complaints and medical history) with multimodal medical imaging data. To bridge this gap, we introduce MM-Retinal-Reason, the first ophthalmic multimodal dataset with the full spectrum of perception and reasoning. It encompasses both basic reasoning tasks and complex reasoning tasks, aiming to enhance visual-centric fundamental reasoning capabilities and emulate realistic clinical thinking patterns. Building upon MM-Retinal-Reason, we propose OphthaReason, the first ophthalmology-specific multimodal reasoning model with step-by-step reasoning traces. To enable flexible adaptation to both basic and complex reasoning tasks, we specifically design a novel method called Uncertainty-Aware Dynamic Thinking (UADT), which estimates sample-level uncertainty via entropy and dynamically modulates the model's exploration depth using a shaped advantage mechanism. Comprehensive experiments demonstrate that our model achieves state-of-the-art performance on both basic and complex reasoning tasks, outperforming general-purpose MLLMs, medical MLLMs, RL-based medical MLLMs, and ophthalmic MLLMs by at least 24.92\%, 15.00\%, 21.20\%, and 17.66\%. Project Page: \href{https://github.com/lxirich/OphthaReason}{link}.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は近年,強化学習パラダイムによる顕著な推論能力を示した。
医療分野ではいくつかのマルチモーダル推論モデルが研究されているが、そのほとんどは基本的な推論にのみ焦点をあてている。
しかし、実際の臨床診断は基本的な推論を超えて、異種の臨床情報(主訴や医療史など)とマルチモーダルな医療画像データを統合する推論プロセスを必要としている。
このギャップを埋めるために, MM-Retinal-Reasonは, 知覚と推論の完全なスペクトルを持つ最初の眼科用マルチモーダルデータセットである。
基本的な推論タスクと複雑な推論タスクの両方を含み、視覚中心の基本的な推論能力を高め、現実的な臨床思考パターンをエミュレートすることを目的としている。
MM-Retinal-Reasonに基づいて,第1の眼科特異的多モード推論モデルであるOphthaReasonを提案する。
基本的な推論タスクと複雑な推論タスクの両方に柔軟な適応を可能にするために,不確実性認識動的思考(UADT)と呼ばれる新しい手法を設計し,エントロピーを用いてサンプルレベルの不確実性を推定し,形状の利点機構を用いてモデルの探索深度を動的に変調する。
包括的実験により,本モデルは,汎用MLLM,医療MLLM,RLベース医療MLLM,眼科MLLMを,少なくとも24.92\%,15.00\%,21.20\%,17.66\%で上回る,基礎的および複雑な推論タスクにおいて,最先端のパフォーマンスを達成できた。
プロジェクトページ: \href{https://github.com/lxirich/OphthaReason}{link}。
関連論文リスト
- Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs [23.50838763761289]
我々は、厳密で効果的な医療連鎖データを生成するために、Mentor-Intern Collaborative Search (MICS)を提案する。
推論性能は、生成された推論パスの品質を評価するMICSスコアによって決定される。
最終的に、難易度の高いマルチタスク医療推論データセットであるMMRPと、カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
論文 参考訳(メタデータ) (2025-06-20T12:51:19Z) - Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models [15.870555147672023]
強化学習(RL)に基づく多モーダル大規模言語モデル(MLLM)の軌道変更
医用視覚質問応答(VQA)におけるRLに基づくチューニングの有効性に影響を与える4つの臨界次元について検討する。
我々は、これらの因子を医療MLLMで分析するための広範囲な実験を行い、モデルがどのようにドメイン特異的に微調整されているかについての新しい知見を提供する。
論文 参考訳(メタデータ) (2025-05-20T06:12:20Z) - Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。
人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。
大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (2025-05-08T03:35:23Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Knowledge-Augmented Multimodal Clinical Rationale Generation for Disease Diagnosis with Small Language Models [14.136585695164426]
小型言語モデル(SLM)は効率的であるが、マルチモーダル医療データを統合するための高度な推論が欠けている。
我々は,LLM由来の推論能力を合理的蒸留とドメイン知識注入によって活用し,SLMの強化を図るClinRaGenを提案する。
実世界の医療データセットの実験により、ClinRaGenは疾患の診断と合理性生成において最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-11-12T07:34:56Z) - The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。