論文の概要: InfiMed: Low-Resource Medical MLLMs with Advancing Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2505.23867v3
- Date: Wed, 08 Oct 2025 09:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.030456
- Title: InfiMed: Low-Resource Medical MLLMs with Advancing Understanding and Reasoning
- Title(参考訳): InfiMed: 理解と推論を促進する低リソース医療MLLM
- Authors: Zeyu Liu, Zhitian Hou, Guanghao Zhu, Zhijie Sang, Congkai Xie, Hongxia Yang,
- Abstract要約: InfiMed-SFT-3B と InfiMed-RL-3B は7つのマルチモーダル医療ベンチマークで最先端のパフォーマンスを実現する。
InfiMed-RL-3Bの平均精度は59.2%であり、InternVL3-8Bのような大型モデルよりも57.3%高い。
- 参考スコア(独自算出の注目度): 19.791150694039466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable progress in domains such as visual understanding and mathematical reasoning. However, their application in the medical domain is constrained by two key challenges: (1) multimodal medical datasets are scarce and often contain sparse information, limiting reasoning depth; and (2) Reinforcement Learning with Verifiable Rewards (RLVR), though effective in general domains, cannot reliably improve model performance in the medical domain. To overcome these challenges, during the supervised fine-tuning (SFT) stage, we incorporate high-quality textual reasoning data and general multimodal data alongside multimodal medical data to efficiently enhance foundational medical capabilities and restore the base model's reasoning ability. Moreover, considering that there are some multimodal medical datasets with sparse information, we further synthesize reflective-pattern-injected chain-of-thought (CoT) in addition to general CoT samples, equipping the model with initial reflective reasoning capabilities that provide a structured foundation for subsequent RLVR training. Finally, we introduce our InfiMed-Series models, InfiMed-SFT-3B and InfiMed-RL-3B, both of which deliver state-of-the-art performance across seven multimodal medical benchmarks. Notably, InfiMed-RL-3B achieves an average accuracy of 59.2%, outperforming even larger models like InternVL3-8B, which achieves 57.3%. Specifically, during the SFT phase, we utilized 188K samples, while the RLVR phase incorporated 36K samples, demonstrating the efficacy of both training strategies in achieving superior performance. We also conducted a series of extensive experiments, which provide valuable insights that contribute to advancing the performance of MLLMs in medical scenarios.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的理解や数学的推論といった領域において顕著な進歩を遂げている。
しかし, 医療領域での応用は, 1) マルチモーダルな医療データセットが不十分で, 情報不足, 推論深度制限, (2) 一般的な領域では有効だが, 医療領域のモデル性能を確実に向上させることはできない,という2つの課題に制約されている。
これらの課題を克服するため、教師付き微調整(SFT)段階において、高品質なテキスト推論データと汎用マルチモーダルデータとをマルチモーダル医療データと組み合わせ、基礎的医療能力を効率的に向上し、ベースモデルの推論能力を回復する。
さらに、スパース情報を持つマルチモーダル医療データセットが存在することを踏まえ、一般のCoTサンプルに加えて、反射パターン注入チェーン(CoT)を更に合成し、その後のRLVRトレーニングのための構造化基盤となる初期反射推論機能を備えたモデルを装備する。
最後に,InfiMed-SFT-3BとInfiMed-RL-3Bの2つのモデルを紹介した。
特に、InfiMed-RL-3Bの平均精度は59.2%であり、InternVL3-8Bのようなより大型のモデルよりも57.3%高い。
具体的には,SFTフェーズでは188Kのサンプルを,RLVRフェーズでは36Kのサンプルを投入し,両トレーニング戦略の有効性を実証した。
また,医療シナリオにおけるMLLMの性能向上に寄与する貴重な知見を提供する,広範囲な実験も実施した。
関連論文リスト
- MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Lightweight Clinical Decision Support System using QLoRA-Fine-Tuned LLMs and Retrieval-Augmented Generation [0.0]
本研究では,医療におけるLarge Language Models(LLM)の適用について検討する。
我々は、病院固有のデータと統合された検索型RAG(Retrieval-Augmented Generation)による医療意思決定支援と、量子化低ランク適応(QLoRA)を用いた微調整に焦点を当てる。
我々は、患者のプライバシ、データセキュリティ、厳格な臨床検証の必要性、およびそのようなシステムを現実の医療に組み込むための実践的な課題など、倫理的な配慮に目を向ける。
論文 参考訳(メタデータ) (2025-05-06T10:31:54Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Performance of Large Language Models in Supporting Medical Diagnosis and Treatment [0.0]
AI駆動システムは、膨大なデータセットを分析し、臨床医が病気を特定し、治療を推奨し、患者の結果を予測するのを支援する。
本研究は,2024年のポルトガル国立試験場において,オープンソースモデルとクローズドソースモデルの両方を含む,現代LLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-04-14T16:53:59Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models [54.09244105445476]
本研究は,フェデレート・ラーニング・フレームワーク内で医療基盤モデルを拡張するための新しい知識注入手法であるFedKIMを紹介する。
FedKIMは軽量なローカルモデルを活用して、プライベートデータから医療知識を抽出し、この知識を集中基盤モデルに統合する。
7つのモードで12タスクを対象に実験を行い,FedKIMの有効性について検討した。
論文 参考訳(メタデータ) (2024-08-17T15:42:29Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。