論文の概要: Benchmarking the Thinking Mode of Multimodal Large Language Models in Clinical Tasks
- arxiv url: http://arxiv.org/abs/2511.03328v1
- Date: Wed, 05 Nov 2025 09:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.399634
- Title: Benchmarking the Thinking Mode of Multimodal Large Language Models in Clinical Tasks
- Title(参考訳): 臨床における多モーダル大言語モデルの思考様式のベンチマーク
- Authors: Jindong Hong, Tianjie Chen, Lingjie Luo, Chuanyang Zheng, Ting Xu, Haibao Yu, Jianing Qiu, Qianzhong Chen, Suning Huang, Yan Xu, Yong Gui, Yijun He, Jiankai Sun,
- Abstract要約: Seed1.5-VLとGemini-2.5-Flashの2つのMLLMを医療応用として評価した。
VQA-RADとROCOv2データセットを用いて,4つの視覚的医療課題における評価を行った。
その結果, 思考モードの活性化による改善は, 作業の大部分において, 標準の非思考モードに比べ, 限界を保っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 21.64292736946726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent advancement in Multimodal Large Language Models (MLLMs) research is the emergence of "reasoning MLLMs" that offer explicit control over their internal thinking processes (normally referred as the "thinking mode") alongside the standard "non-thinking mode". This capability allows these models to engage in a step-by-step process of internal deliberation before generating a final response. With the rapid transition to and adoption of these "dual-state" MLLMs, this work rigorously evaluated how the enhanced reasoning processes of these MLLMs impact model performance and reliability in clinical tasks. This paper evaluates the active "thinking mode" capabilities of two leading MLLMs, Seed1.5-VL and Gemini-2.5-Flash, for medical applications. We assessed their performance on four visual medical tasks using VQA-RAD and ROCOv2 datasets. Our findings reveal that the improvement from activating the thinking mode remains marginal compared to the standard non-thinking mode for the majority of the tasks. Their performance on complex medical tasks such as open-ended VQA and medical image interpretation remains suboptimal, highlighting the need for domain-specific medical data and more advanced methods for medical knowledge integration.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)研究の最近の進歩は、標準の「非思考モード」とともに、内部思考プロセス(通常「思考モード」と呼ばれる)を明示的に制御する「推論MLLM」の出現である。
この能力により、最終的な応答を生成する前に、これらのモデルが内部の熟考のステップバイステップのプロセスに参加することができる。
これらの「二重状態」MLLMの急速な移行と導入により、これらのMLLMの強化された推論プロセスが臨床的タスクにおけるモデルの性能と信頼性にどのように影響するかを厳格に評価した。
本稿では,医療用MLLMであるSeed1.5-VLとGemini-2.5-Flashのアクティブな「思考モード」機能について検討する。
VQA-RADとROCOv2データセットを用いて,4つの視覚的医療課題における評価を行った。
その結果, 思考モードの活性化による改善は, 作業の大部分において, 標準の非思考モードに比べ, 限界を保っていることが明らかとなった。
オープンエンドVQAや医用画像解釈といった複雑な医療タスクにおけるパフォーマンスは、ドメイン固有の医療データや、より高度な医療知識統合手法の必要性を浮き彫りにしている。
関連論文リスト
- SurgMLLMBench: A Multimodal Large Language Model Benchmark Dataset for Surgical Scene Understanding [8.20483591990742]
本稿では,対話型マルチモーダル大言語モデルの開発と評価のための統一ベンチマークであるSurgMLLMBenchを紹介する。
ピクセルレベルの機器セグメンテーションマスクと、腹腔鏡、ロボット支援、マイクロサージカルドメインにまたがる構造化VQAアノテーションを統合している。
ドメイン間で一貫したパフォーマンスを実現し、目に見えないデータセットに効果的に一般化する。
論文 参考訳(メタデータ) (2025-11-26T12:44:51Z) - Rethinking Facial Expression Recognition in the Era of Multimodal Large Language Models: Benchmark, Datasets, and Beyond [116.65158801881984]
MLLMの表情推論能力の向上を目的とした後学習戦略を提案する。
We developed a unified and interpretable FER foundation model called UniFER-7B。
論文 参考訳(メタデータ) (2025-11-01T03:53:00Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models [15.530083855947987]
我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。
Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。
様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
論文 参考訳(メタデータ) (2025-10-21T05:18:18Z) - MathOPEval: A Fine-grained Evaluation Benchmark for Visual Operations of MLLMs in Mathematical Reasoning [66.35003870737727]
有望なアプローチでは、中間表現としてコードを使用し、推論ステップで画像を正確に表現し、操作する。
既存の評価はテキストのみの推論出力に重点を置いており、MLLMはコードによる正確な視覚操作をほとんど探索されていないままにしている。
この研究は、マルチモーダル数学的推論におけるMLLMのコードベース能力を評価することによって、そのギャップに対処する第一歩を踏み出した。
論文 参考訳(メタデータ) (2025-07-24T07:03:11Z) - A Versatile Pathology Co-pilot via Reasoning Enhanced Multimodal Large Language Model [27.983545541209455]
本稿では、ROIレベルとWSIレベルのタスクを同時に処理できる汎用MLLMであるSmartPath-R1を提案する。
本フレームワークは,スケール依存型微調整とタスク認識型強化微調整を組み合わせることで,チェーン・オブ・ファシリテータの必要性を回避する。
論文 参考訳(メタデータ) (2025-07-23T08:09:42Z) - MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - Chiron-o1: Igniting Multimodal Large Language Models towards Generalizable Medical Reasoning via Mentor-Intern Collaborative Search [41.81463064393831]
マルチモーダルな大規模言語モデル(MLLM)は、一般的なタスクに対して堅牢な推論能力を実証し始めているが、医療分野への応用はまだ初期段階にある。
我々は、厳密で効果的な医療用CoTデータを生成するための新しい推論パス探索手法であるMentor-Intern Collaborative Search (MICS)を提案する。
我々は,難易度の高いマルチタスク医療推論データセットであるMMRPと,カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
論文 参考訳(メタデータ) (2025-06-20T12:51:19Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - InfiMed: Low-Resource Medical MLLMs with Advancing Understanding and Reasoning [19.791150694039466]
InfiMed-SFT-3B と InfiMed-RL-3B は7つのマルチモーダル医療ベンチマークで最先端のパフォーマンスを実現する。
InfiMed-RL-3Bの平均精度は59.2%であり、InternVL3-8Bのような大型モデルよりも57.3%高い。
論文 参考訳(メタデータ) (2025-05-29T10:31:57Z) - MedM-VL: What Makes a Good Medical LVLM? [14.598992440829079]
大規模視覚言語モデル(LVLM)は、複雑な医療課題を解決するための新しいソリューションを提供する。
2次元および3次元の医療用LVLMのモデルアーキテクチャとトレーニング戦略を探求するために、人気のあるLLaVAフレームワークを構築した。
MedM-VL-2D, MedM-VL-CT-Chest, MedM-VL-CT-Chestの2つの事前訓練モデルをリリースする。
論文 参考訳(メタデータ) (2025-04-06T01:44:46Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。