論文の概要: M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding
- arxiv url: http://arxiv.org/abs/2601.08758v1
- Date: Tue, 13 Jan 2026 17:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.311418
- Title: M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding
- Title(参考訳): M3CoTBench:医療画像理解におけるMLLMのベンチマークチェーン
- Authors: Juntao Jiang, Jiangning Zhang, Yali Bi, Jinsheng Bai, Weixuan Liu, Weiwei Jin, Zhucun Xue, Yong Liu, Xiaobin Hu, Shuicheng Yan,
- Abstract要約: CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
- 参考スコア(独自算出の注目度): 66.78251988482222
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning has proven effective in enhancing large language models by encouraging step-by-step intermediate reasoning, and recent advances have extended this paradigm to Multimodal Large Language Models (MLLMs). In the medical domain, where diagnostic decisions depend on nuanced visual cues and sequential reasoning, CoT aligns naturally with clinical thinking processes. However, Current benchmarks for medical image understanding generally focus on the final answer while ignoring the reasoning path. An opaque process lacks reliable bases for judgment, making it difficult to assist doctors in diagnosis. To address this gap, we introduce a new M3CoTBench benchmark specifically designed to evaluate the correctness, efficiency, impact, and consistency of CoT reasoning in medical image understanding. M3CoTBench features 1) a diverse, multi-level difficulty dataset covering 24 examination types, 2) 13 varying-difficulty tasks, 3) a suite of CoT-specific evaluation metrics (correctness, efficiency, impact, and consistency) tailored to clinical reasoning, and 4) a performance analysis of multiple MLLMs. M3CoTBench systematically evaluates CoT reasoning across diverse medical imaging tasks, revealing current limitations of MLLMs in generating reliable and clinically interpretable reasoning, and aims to foster the development of transparent, trustworthy, and diagnostically accurate AI systems for healthcare. Project page at https://juntaojianggavin.github.io/projects/M3CoTBench/.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することで、大規模言語モデルの強化に有効であることが証明されており、近年の進歩により、このパラダイムをMLLM(Multimodal Large Language Models)へと拡張している。
診断決定が微妙な視覚的手がかりとシーケンシャルな推論に依存する医療領域では、CoTは臨床思考プロセスと自然に一致している。
しかし、医学画像理解のための最新のベンチマークでは、推論パスを無視しながら最終回答に重点を置いているのが一般的である。
不透明なプロセスでは、信頼できる判断基盤が欠如しており、診断における医師の支援が困難である。
このギャップに対処するために、医用画像理解におけるCoT推論の正確性、効率性、影響、一貫性を評価するために設計された新しいM3CoTBenchベンチマークを導入する。
M3CoTBenchの機能
1)24種類の検査を対象とする多段階難易度データセット。
2) 各種難易度タスク13
3 CoT 別評価尺度(正確性、効率性、影響、整合性)のセットは、臨床推論に適合する。
4) 複数のMLLMの性能解析を行った。
M3CoTBenchは、さまざまな医療画像タスクにわたるCoT推論を体系的に評価し、信頼性と臨床的に解釈可能な推論を生成するMLLMの現在の限界を明らかにし、透明で信頼性があり、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
Project page at https://juntaojianggavin.github.io/projects/M3CoTBench/。
関連論文リスト
- Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Triplet-Structured Knowledge Integration for Multi-Turn Medical Reasoning [21.44813166265882]
大規模言語モデル(LLM)は静的医療質問応答(QA)タスクにおいて高いパフォーマンスを示している。
本稿では,LLMの推論信頼性を高める三重構造アプローチであるTriMediQを紹介する。
2つのインタラクティブな医療QAベンチマークの実験によると、TriMediQは既存の5つのベースラインよりも最大10.4%精度が向上している。
論文 参考訳(メタデータ) (2025-10-03T22:11:17Z) - MedCoT-RAG: Causal Chain-of-Thought RAG for Medical Question Answering [4.285647375182588]
大規模言語モデル (LLM) は医学的な疑問に答える上で有望であるが、幻覚や浅い推論に苦しむことが多い。
Retrieval-augmented Generation (RAG)は、外部の医療知識でLSMを強化するための実用的でプライバシー保護の手段を提供する。
MedCoT-RAGは、因果認識ドキュメント検索と構造化チェーン・オブ・シークレット・プロンプトを組み合わせたドメイン固有フレームワークである。
論文 参考訳(メタデータ) (2025-08-20T05:43:26Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Chiron-o1: Igniting Multimodal Large Language Models towards Generalizable Medical Reasoning via Mentor-Intern Collaborative Search [41.81463064393831]
マルチモーダルな大規模言語モデル(MLLM)は、一般的なタスクに対して堅牢な推論能力を実証し始めているが、医療分野への応用はまだ初期段階にある。
我々は、厳密で効果的な医療用CoTデータを生成するための新しい推論パス探索手法であるMentor-Intern Collaborative Search (MICS)を提案する。
我々は,難易度の高いマルチタスク医療推論データセットであるMMRPと,カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
論文 参考訳(メタデータ) (2025-06-20T12:51:19Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。