論文の概要: BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models for Biomedical Image Analysis
- arxiv url: http://arxiv.org/abs/2505.09329v1
- Date: Wed, 14 May 2025 12:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.449955
- Title: BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models for Biomedical Image Analysis
- Title(参考訳): BioVFM-21M:バイオメディカル画像解析のためのセルフスーパービジョン基盤モデルのベンチマークとスケーリング
- Authors: Jiarun Liu, Hong-Yu Zhou, Weijian Huang, Hao Yang, Dongning Song, Tao Tan, Yong Liang, Shanshan Wang,
- Abstract要約: モデルとデータサイズをスケールアップすることは、広範囲なタスクにおいて、素晴らしいパフォーマンス向上を示している。
医療領域におけるスケーリング行動の広範な理解が欠如していることから,医療ビジョン基盤モデルを大規模に開発する上での鍵となる要因は,いまだ不明である。
2100万枚のバイオメディカルイメージを事前トレーニングした大規模医療ビジョン基盤モデルであるBioVFMを提案する。
- 参考スコア(独自算出の注目度): 17.799500895785577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling up model and data size have demonstrated impressive performance improvement over a wide range of tasks. Despite extensive studies on scaling behaviors for general-purpose tasks, medical images exhibit substantial differences from natural data. It remains unclear the key factors in developing medical vision foundation models at scale due to the absence of an extensive understanding of scaling behavior in the medical domain. In this paper, we explored the scaling behavior across model sizes, training algorithms, data sizes, and imaging modalities in developing scalable medical vision foundation models by self-supervised learning. To support scalable pretraining, we introduce BioVFM-21M, a large-scale biomedical image dataset encompassing a wide range of biomedical image modalities and anatomies. We observed that scaling up does provide benefits but varies across tasks. Additional analysis reveals several factors correlated with scaling benefits. Finally, we propose BioVFM, a large-scale medical vision foundation model pretrained on 21 million biomedical images, which outperforms the previous state-of-the-art foundation models across 12 medical benchmarks. Our results highlight that while scaling up is beneficial for pursuing better performance, task characteristics, data diversity, pretraining methods, and computational efficiency remain critical considerations for developing scalable medical foundation models.
- Abstract(参考訳): モデルとデータサイズをスケールアップすることは、広範囲なタスクに対して、驚くべきパフォーマンス向上を示している。
汎用タスクのスケーリング行動に関する広範な研究にもかかわらず、医療画像は自然データと大きく異なる。
医療領域におけるスケーリング行動の広範な理解が欠如していることから,医療ビジョン基盤モデルを大規模に開発する上での鍵となる要因は,いまだ不明である。
本稿では, モデルサイズ, トレーニングアルゴリズム, データサイズ, 画像モダリティを考慮した, 自己教師型学習によるスケーラブルな医療ビジョン基盤モデルの開発について検討した。
大規模バイオメディカル画像データセットであるBioVFM-21Mを導入する。
スケールアップはメリットを提供するが、タスクによって異なります。
さらなる分析により、スケーリングのメリットと相関するいくつかの要因が明らかになった。
最後に,BioVFMを提案する。BioVFMは2100万のバイオメディカル画像に基づいて事前訓練された大規模医療ビジョン基盤モデルであり,12の医療ベンチマークにおいて,これまでの最先端基盤モデルよりも優れていた。
以上の結果から,スケールアップは優れたパフォーマンス,タスク特性,データの多様性,事前学習方法,計算効率を追求する上で有益であるが,スケーラブルな医療基盤モデルを開発する上では重要な考慮事項であることが明らかとなった。
関連論文リスト
- Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。
これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。
本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文 参考訳(メタデータ) (2025-03-03T22:42:00Z) - Vision Foundation Models in Medical Image Analysis: Advances and Challenges [7.224426395050136]
ビジョンファウンデーションモデル(VFM)は、医療画像解析の分野で大きな進歩をもたらした。
本稿では,VFMの医用画像セグメンテーションへの適応に関する現状研究について概説する。
本稿では,アダプタによる改良,知識蒸留技術,マルチスケール・コンテキスト特徴モデリングの最近の発展について論じる。
論文 参考訳(メタデータ) (2025-02-20T14:13:46Z) - Rethinking Foundation Models for Medical Image Classification through a Benchmark Study on MedMNIST [7.017817009055001]
医用画像分類タスクにおける基礎モデルの有用性について,MedMNISTデータセットのベンチマークによる検討を行った。
我々は畳み込みモデルからトランスフォーマーモデルまで様々な基礎モデルを採用し、すべての分類タスクに対してエンドツーエンドのトレーニングと線形探索の両方を実装している。
論文 参考訳(メタデータ) (2025-01-24T18:01:07Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - When Medical Imaging Met Self-Attention: A Love Story That Didn't Quite Work Out [8.113092414596679]
2つの異なる医療データセットに異なる自己注意変異を持つ、広く採用されている2つの畳み込みアーキテクチャを拡張します。
完全畳み込みモデルに比べてバランスの取れた精度は著しく改善されていない。
また, 皮膚病変画像における皮膚内視鏡像などの重要な特徴は, 自己注意を用いても学ばないことが明らかとなった。
論文 参考訳(メタデータ) (2024-04-18T16:18:41Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。