論文の概要: Enhancing Multi-task Learning Capability of Medical Generalist Foundation Model via Image-centric Multi-annotation Data
- arxiv url: http://arxiv.org/abs/2504.09967v1
- Date: Mon, 14 Apr 2025 08:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:49.351928
- Title: Enhancing Multi-task Learning Capability of Medical Generalist Foundation Model via Image-centric Multi-annotation Data
- Title(参考訳): 画像中心型マルチアノテーションデータを用いた医用ジェネリスト基礎モデルのマルチタスク学習能力向上
- Authors: Xun Zhu, Fanbin Mo, Zheng Zhang, Jiaxi Wang, Yiming Shi, Ming Wu, Chuang Zhang, Miao Li, Ji Wu,
- Abstract要約: 画像中心型マルチアノテーションX線データセット(IMAX)について紹介する。
各X線画像は平均4.10タスクと7.46のトレーニングエントリに関連付けられ、画像毎のマルチタスク表現の豊かさが保証される。
一般的な分散マルチアノテーションX線データセット(DMAX)と比較すると、IMAXはマルチタスク平均性能の顕著な向上を一貫して示している。
- 参考スコア(独自算出の注目度): 25.44674345495047
- License:
- Abstract: The emergence of medical generalist foundation models has revolutionized conventional task-specific model development paradigms, aiming to better handle multiple tasks through joint training on large-scale medical datasets. However, recent advances prioritize simple data scaling or architectural component enhancement, while neglecting to re-examine multi-task learning from a data-centric perspective. Critically, simply aggregating existing data resources leads to decentralized image-task alignment, which fails to cultivate comprehensive image understanding or align with clinical needs for multi-dimensional image interpretation. In this paper, we introduce the image-centric multi-annotation X-ray dataset (IMAX), the first attempt to enhance the multi-task learning capabilities of medical multi-modal large language models (MLLMs) from the data construction level. To be specific, IMAX is featured from the following attributes: 1) High-quality data curation. A comprehensive collection of more than 354K entries applicable to seven different medical tasks. 2) Image-centric dense annotation. Each X-ray image is associated with an average of 4.10 tasks and 7.46 training entries, ensuring multi-task representation richness per image. Compared to the general decentralized multi-annotation X-ray dataset (DMAX), IMAX consistently demonstrates significant multi-task average performance gains ranging from 3.20% to 21.05% across seven open-source state-of-the-art medical MLLMs. Moreover, we investigate differences in statistical patterns exhibited by IMAX and DMAX training processes, exploring potential correlations between optimization dynamics and multi-task performance. Finally, leveraging the core concept of IMAX data construction, we propose an optimized DMAX-based training strategy to alleviate the dilemma of obtaining high-quality IMAX data in practical scenarios.
- Abstract(参考訳): 医療一般基盤モデルの出現は、大規模医療データセットの共同トレーニングを通じて、複数のタスクをよりよく扱うことを目的として、従来のタスク固有のモデル開発パラダイムに革命をもたらした。
しかし、最近の進歩は、データ中心の観点からマルチタスク学習を再検討することを無視しながら、単純なデータスケーリングやアーキテクチャコンポーネントの強化を優先している。
批判的に言えば、既存のデータリソースを集約すれば、分散化されたイメージタスクアライメントにつながり、包括的なイメージ理解の育成や、多次元画像解釈のための臨床ニーズとの整合に失敗する。
本稿では,医療用マルチモーダル大規模言語モデル(MLLM)のマルチタスク学習能力をデータ構築レベルから拡張する最初の試みである,画像中心型マルチアノテーションX線データセット(IMAX)を紹介する。
具体的に言うと、IMAXは以下の属性から特徴付けられる。
1)高品質なデータキュレーション。
354K以上のエントリーの総合的なコレクションは、7つの異なる医療タスクに適用できる。
2)画像中心の濃密アノテーション。
各X線画像は平均4.10タスクと7.46のトレーニングエントリに関連付けられ、画像毎のマルチタスク表現の豊かさが保証される。
一般的な分散マルチアノテーションX線データセット(DMAX)と比較して、IMAXは7つのオープンソース医療MLLMに対して3.20%から21.05%の大幅なマルチタスク平均パフォーマンス向上を示している。
さらに,IMAX と DMAX のトレーニングプロセスで示される統計パターンの違いについて検討し,最適化力学とマルチタスク性能の潜在的な相関について検討した。
最後に,IMAXデータ構築のコアコンセプトを活用することで,高品質なIMAXデータを現実的なシナリオで取得するジレンマを軽減するため,DMAXベースのトレーニング戦略を提案する。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models [103.25208095165486]
既存のプラクティスは命令データを生成するために、強力だが高価な言語モデル(LLM)やマルチモーダル言語モデル(MLM)に依存している。
本稿では,シーングラフを画像のシンボル表現として利用し,視覚中心の命令データを体系的に合成するプログラムを提案する。
提案手法は,データ生成プロセスの解釈可能性と制御性を保証し,実際の精度を維持しながら効率よくスケールする。
論文 参考訳(メタデータ) (2024-12-09T21:44:02Z) - Multi-modal Vision Pre-training for Medical Image Analysis [11.569448567735435]
自己教師型学習は、実世界のアプリケーションに対するトレーニングデータ要求を抑えることにより、医療画像解析を大いに促進してきた。
我々は,3つの代用タスクによる新しいマルチモーダル画像事前学習を行い,相互モダリティ表現と相関の学習を容易にする。
Dice Scoreは6つのセグメンテーションベンチマークで0.28%-14.47%改善し、4つの画像分類タスクで0.65%-18.07%向上した。
論文 参考訳(メタデータ) (2024-10-14T15:12:16Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography [4.004641316826348]
マンモグラフィーへの完全CLIPモデルの最初の適応の一つを提案する。
われわれはまず,マンモグラフィーの多視点性を活用した特別監視フレームワークを開発する。
最後に,データ制限に対処するために,医学知識を事前学習した大規模言語モデルに対して,パラメータ効率のよい微調整手法を取り入れた。
論文 参考訳(メタデータ) (2024-09-26T17:56:59Z) - Coupling AI and Citizen Science in Creation of Enhanced Training Dataset for Medical Image Segmentation [3.7274206780843477]
我々は、AIとクラウドソーシングを組み合わせた堅牢で汎用的なフレームワークを導入し、医療画像データセットの品質と量を改善する。
当社のアプローチでは,多様なクラウドアノテータのグループによる医療画像のラベル付けを効率的に行うことができる,ユーザフレンドリーなオンラインプラットフォームを活用している。
我々は、生成AIモデルであるpix2pixGANを使用して、リアルな形態的特徴をキャプチャする合成画像を用いてトレーニングデータセットを拡張する。
論文 参考訳(メタデータ) (2024-09-04T21:22:54Z) - Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z) - DiCoM -- Diverse Concept Modeling towards Enhancing Generalizability in Chest X-Ray Studies [6.83819481805979]
胸部X線(胸部X線、CXR)は、広く用いられている画像モダリティである。
自己指導型プレトレーニングは、多くの下流視覚タスクにおいて教師付きプレトレーニングよりも優れていることが証明されている。
本稿では,新しい自己教師型トレーニングパラダイムであるDiCoMについて紹介する。
論文 参考訳(メタデータ) (2024-02-22T20:51:37Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。