論文の概要: InfiMed-Foundation: Pioneering Advanced Multimodal Medical Models with Compute-Efficient Pre-Training and Multi-Stage Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.22261v1
- Date: Fri, 26 Sep 2025 12:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.415277
- Title: InfiMed-Foundation: Pioneering Advanced Multimodal Medical Models with Compute-Efficient Pre-Training and Multi-Stage Fine-Tuning
- Title(参考訳): InfiMed-Foundation:Compute-Efficient Pre-TrainingとMulti-Stage Fine-Tuningを用いた先進的マルチモーダル医療モデルのパイオニアリング
- Authors: Guanghao Zhu, Zhitian Hou, Zeyu Liu, Zhijie Sang, Congkai Xie, Hongxia Yang,
- Abstract要約: InfiMed-Foundation-1.7BとInfiMed-Foundation-4Bは、医療応用における最先端のパフォーマンスを実現するために設計された2つの医療用MLLMである。
我々は、トレーニング効率を高めるために、低解像度画像分解能とマルチモーダルシーケンスパッキングを用いる。
InfiMed-Foundation-1.7BはQwen2.5VL-3Bを上回っ、InfiMed-Foundation-4BはHuatuoGPT-V-7BとMedGemma-27B-ITを上回っている。
- 参考スコア(独自算出の注目度): 19.791150694039466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown remarkable potential in various domains, yet their application in the medical field is hindered by several challenges. General-purpose MLLMs often lack the specialized knowledge required for medical tasks, leading to uncertain or hallucinatory responses. Knowledge distillation from advanced models struggles to capture domain-specific expertise in radiology and pharmacology. Additionally, the computational cost of continual pretraining with large-scale medical data poses significant efficiency challenges. To address these issues, we propose InfiMed-Foundation-1.7B and InfiMed-Foundation-4B, two medical-specific MLLMs designed to deliver state-of-the-art performance in medical applications. We combined high-quality general-purpose and medical multimodal data and proposed a novel five-dimensional quality assessment framework to curate high-quality multimodal medical datasets. We employ low-to-high image resolution and multimodal sequence packing to enhance training efficiency, enabling the integration of extensive medical data. Furthermore, a three-stage supervised fine-tuning process ensures effective knowledge extraction for complex medical tasks. Evaluated on the MedEvalKit framework, InfiMed-Foundation-1.7B outperforms Qwen2.5VL-3B, while InfiMed-Foundation-4B surpasses HuatuoGPT-V-7B and MedGemma-27B-IT, demonstrating superior performance in medical visual question answering and diagnostic tasks. By addressing key challenges in data quality, training efficiency, and domain-specific knowledge extraction, our work paves the way for more reliable and effective AI-driven solutions in healthcare. InfiMed-Foundation-4B model is available at \href{https://huggingface.co/InfiX-ai/InfiMed-Foundation-4B}{InfiMed-Foundation-4B}.
- Abstract(参考訳): MLLM(Multimodal large language model)は、様々な領域において顕著な可能性を示しているが、医療分野への応用にはいくつかの課題がある。
汎用MLLMは医療業務に必要な専門知識を欠くことが多く、不確かさや幻覚の反応をもたらす。
先進的なモデルからの知識の蒸留は、放射線学と薬理学の分野固有の専門知識をつかむのに苦労する。
さらに、大規模医療データによる継続事前トレーニングの計算コストは、大きな効率上の課題を生じさせる。
これらの課題に対処するため,医療応用における最先端のパフォーマンスを実現するために,InfiMed-Foundation-1.7BとInfiMed-Foundation-4Bを提案する。
我々は,高品質な汎用医療用マルチモーダルデータと医療用マルチモーダルデータを組み合わせて,高品質なマルチモーダル医療データセットをキュレートするための新しい5次元品質評価フレームワークを提案した。
我々は、訓練効率を高めるために、低解像度画像分解能とマルチモーダルシーケンスパッキングを使用し、広範囲な医療データの統合を可能にした。
さらに、3段階の教師付き微調整プロセスにより、複雑な医療タスクに対する効果的な知識抽出が保証される。
MedEvalKitフレームワーク上での評価では、InfiMed-Foundation-1.7BはQwen2.5VL-3Bを上回り、InfiMed-Foundation-4BはHuatuoGPT-V-7BとMedGemma-27B-ITを上回り、医学的な視覚的質問応答と診断タスクにおいて優れたパフォーマンスを示す。
データ品質、トレーニング効率、ドメイン固有の知識抽出における重要な課題に対処することで、私たちの仕事は、医療におけるより信頼性が高く効果的なAI駆動ソリューションの道を開いたのです。
InfiMed-Foundation-4B モデルは \href{https://huggingface.co/InfiX-ai/InfiMed-Foundation-4B}{InfiMed-Foundation-4B} で利用可能である。
関連論文リスト
- MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - InfiMed: Low-Resource Medical MLLMs with Advancing Understanding and Reasoning [19.791150694039466]
InfiMed-SFT-3B と InfiMed-RL-3B は7つのマルチモーダル医療ベンチマークで最先端のパフォーマンスを実現する。
InfiMed-RL-3Bの平均精度は59.2%であり、InternVL3-8Bのような大型モデルよりも57.3%高い。
論文 参考訳(メタデータ) (2025-05-29T10:31:57Z) - MEDMKG: Benchmarking Medical Knowledge Exploitation with Multimodal Knowledge Graph [28.79000907242469]
医用マルチモーダル知識グラフであるMEDMKGを提案する。
我々は,3つのタスクにまたがるMEDMKGを2つの実験的な設定で評価し,24のベースライン法と4つの最先端のビジョン言語バックボーンを6つのデータセットでベンチマークした。
その結果,MEDMKGは下流医療タスクの性能向上だけでなく,医療人工知能におけるマルチモーダル知識統合のための適応的かつ堅牢な戦略開発のための強力な基盤を提供することがわかった。
論文 参考訳(メタデータ) (2025-05-22T18:41:46Z) - Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
医学的異常を明らかにするための新しいUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
UMed-LVLMは既存のMed-LVLMよりも医療異常の同定と理解に優れていた。
論文 参考訳(メタデータ) (2025-01-02T17:37:20Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。
PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-27T15:50:41Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。