論文の概要: From Compound Figures to Composite Understanding: Developing a Multi-Modal LLM from Biomedical Literature with Medical Multiple-Image Benchmarking and Validation
- arxiv url: http://arxiv.org/abs/2511.22232v1
- Date: Thu, 27 Nov 2025 08:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.464024
- Title: From Compound Figures to Composite Understanding: Developing a Multi-Modal LLM from Biomedical Literature with Medical Multiple-Image Benchmarking and Validation
- Title(参考訳): 複合図形から複合理解へ:医用多画像ベンチマークと検証によるバイオメディカル文献からの多モードLCMの開発
- Authors: Zhen Chen, Yihang Fu, Gabriel Madera, Mauro Giuffre, Serina Applebaum, Hyunjae Kim, Hua Xu, Qingyu Chen,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、医療の進歩において有望である。
医療用マルチイメージマルチモーダル言語モデルであるM3LLMを開発した。
M3LLMは、汎用的および専門的な医療MLLMと、マルチイメージ、シングルイメージ、テキストオンリー、マルチチョイスシナリオの両方において、著しく優れています。
- 参考スコア(独自算出の注目度): 12.990787280712892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (MLLMs) have shown promise in advancing healthcare. However, most existing models remain confined to single-image understanding, which greatly limits their applicability in clinical workflows. In practice, medical diagnosis and progression often require synthesizing information across multiple images from different modalities or time points. The development of medical MLLMs capable of such multi-image understanding has been hindered by the lack of large-scale, high-quality annotated training data. To address this limitation, we propose a novel framework that leverages license-permissive compound images in biomedical literature, as a rich yet underutilized data source for multi-image analysis. Specifically, we design a five-stage, context-aware instruction generation paradigm underpinned by a divide-and-conquer strategy. By decomposing multi-image analysis into manageable sub-tasks, this paradigm empowers MLLMs to move beyond single-panel analysis and provide a composite understanding by learning the complex spatial, temporal, and cross-modal relationships inherent in these compound figures. By parsing over 237,000 compound figures and their contextual text for instruction generation, we develop M3LLM, a medical multi-image multi-modal large language model. For benchmarking, we construct PMC-MI-Bench for composite understanding, manually validated by medical experts. Extensive experiments show that M3LLM significantly outperforms both general-purpose and specialized medical MLLMs across multi-image, single-image, text-only, and multi-choice scenarios. Notably, M3LLM exhibits strong generalization to longitudinal chest X-ray analysis using the MIMIC dataset. This work establishes a scalable and efficient paradigm for developing medical MLLMs capable of composite reasoning, bridging the gap between biomedical literature and real-world clinical applications.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、医療の進歩において有望である。
しかし、既存のほとんどのモデルは、単一のイメージの理解に限られており、臨床ワークフローにおける適用可能性を大幅に制限している。
実際には、医学的診断と進歩は、異なるモダリティや時間点から複数の画像にまたがる情報を合成する必要があることが多い。
このようなマルチイメージ理解が可能な医療MLLMの開発は、大規模で高品質な注釈付きトレーニングデータがないために妨げられている。
この制限に対処するために, バイオメディカル文献におけるライセンス許容複合画像を活用する, マルチイメージ解析のためのリッチで未利用なデータソースとして, 新たなフレームワークを提案する。
具体的には,5段階のコンテキスト認識型命令生成パラダイムを設計する。
このパラダイムは、マルチイメージ分析を管理可能なサブタスクに分解することで、MLLMがシングルパネル分析を超えて、これらの複合図に固有の複雑な空間的、時間的、および相互モーダルな関係を学習することにより、複合的な理解を提供する。
医用マルチモーダル・マルチモーダル・大規模言語モデルであるM3LLMを開発した。
PMC-MI-Benchを医用専門家が手作業で検証する。
大規模な実験により、M3LLMは、多画像、単一画像、テキストのみ、および複数選択シナリオにおいて、汎用的および専門的な医療MLLMよりも著しく優れていることが示された。
特にM3LLMは,MIMICデータセットを用いた胸部X線解析に強い一般化を示す。
この研究は、バイオメディカル文献と実世界の臨床応用とのギャップを埋め、複合推論が可能な医療MLLMを開発するためのスケーラブルで効率的なパラダイムを確立する。
関連論文リスト
- UniMedVL: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis [41.864457631668806]
画像理解と生成タスクの同時解析のための医用統合マルチモーダルモデルUniMedVLを紹介する。
UniMedVLは5つの医用画像理解ベンチマークにおいて優れた性能を示し、8つの医用画像モダリティにまたがる生成品質のモデルに適合する。
論文 参考訳(メタデータ) (2025-10-17T14:54:58Z) - MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models [48.24824129683951]
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。
そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。
1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
論文 参考訳(メタデータ) (2025-06-12T08:13:38Z) - Medical Large Vision Language Models with Multi-Image Visual Ability [46.889345205047675]
83.2Kの医療用マルチイメージQAペアからなるMed-MIM命令データセットを提案する。
我々は,マンティスとLLaVA-Medを微調整し,MIM-LLaVA-MedとMed-Mantisの2種類の専門医用VLMを作製した。
また,LVLMの医用マルチイメージ理解能力を評価するために,Med-MIMベンチマークを開発した。
論文 参考訳(メタデータ) (2025-05-25T08:31:22Z) - Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - Exploring Compositional Generalization of Multimodal LLMs for Medical Imaging [14.419190976672065]
マルチモーダルな大言語モデル(MLLM)は、その強力な一般化能力のため、分析にますます活用されている。
合成一般化(CG)をモデルに導入し,新しい組み合わせを理解する能力について検討した。
実験の結果、MLLMはCGを使って見えない医療画像を理解することができ、マルチタスクトレーニングで観察される一般化の主要因の1つとしてCGを特定した。
論文 参考訳(メタデータ) (2024-12-28T07:50:00Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。
M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。
専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文 参考訳(メタデータ) (2023-04-03T20:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。