論文の概要: CLIMB: Data Foundations for Large Scale Multimodal Clinical Foundation Models
- arxiv url: http://arxiv.org/abs/2503.07667v2
- Date: Thu, 20 Mar 2025 05:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:32:56.158202
- Title: CLIMB: Data Foundations for Large Scale Multimodal Clinical Foundation Models
- Title(参考訳): CLIMB:大規模マルチモーダル・クリニカル・ファンデーション・モデルのためのデータ基盤
- Authors: Wei Dai, Peilin Chen, Malinda Lu, Daniel Li, Haowen Wei, Hejie Cui, Paul Pu Liang,
- Abstract要約: 大規模統合型マルチモーダルベンチマーク(CLIMB)について紹介する。
CLIMBは、画像、言語、時間、グラフのモダリティにまたがる多様な臨床データを統一する包括的なベンチマークである。
CLIMBの事前訓練は、モデルの新たなタスクへの一般化能力を効果的に改善し、タスクに適した融合戦略と組み合わせた場合、強力な単モーダルエンコーダ性能はマルチモーダルパフォーマンスによく変換される。
- 参考スコア(独自算出の注目度): 27.726366396356763
- License:
- Abstract: Recent advances in clinical AI have enabled remarkable progress across many clinical domains. However, existing benchmarks and models are primarily limited to a small set of modalities and tasks, which hinders the development of large-scale multimodal methods that can make holistic assessments of patient health and well-being. To bridge this gap, we introduce Clinical Large-Scale Integrative Multimodal Benchmark (CLIMB), a comprehensive clinical benchmark unifying diverse clinical data across imaging, language, temporal, and graph modalities. CLIMB comprises 4.51 million patient samples totaling 19.01 terabytes distributed across 2D imaging, 3D video, time series, graphs, and multimodal data. Through extensive empirical evaluation, we demonstrate that multitask pretraining significantly improves performance on understudied domains, achieving up to 29% improvement in ultrasound and 23% in ECG analysis over single-task learning. Pretraining on CLIMB also effectively improves models' generalization capability to new tasks, and strong unimodal encoder performance translates well to multimodal performance when paired with task-appropriate fusion strategies. Our findings provide a foundation for new architecture designs and pretraining strategies to advance clinical AI research. Code is released at https://github.com/DDVD233/climb.
- Abstract(参考訳): 臨床AIの最近の進歩は、多くの臨床領域で顕著な進歩をもたらした。
しかし、既存のベンチマークとモデルは、主に小さなモダリティとタスクに限られており、患者の健康と幸福を総合的に評価できる大規模なマルチモーダル手法の開発を妨げる。
このギャップを埋めるために、画像、言語、時間、およびグラフの様々な臨床データを統一した総合的な臨床ベンチマークであるCLIMB(Ceriical Large-Scale Integrative Multimodal Benchmark)を導入する。
CLIMBは、2D画像、3Dビデオ、時系列、グラフ、およびマルチモーダルデータにまたがる合計19.01テラバイトの患者サンプル4.51万である。
実験的な評価により,マルチタスク事前学習は調査対象領域の性能を著しく改善し,超音波では29%,ECGでは23%向上した。
CLIMBでの事前トレーニングは、新しいタスクへのモデルの一般化能力を効果的に改善し、タスクに適したフュージョン戦略と組み合わせた場合、強力な単モーダルエンコーダ性能はマルチモーダルパフォーマンスによく変換される。
我々の研究成果は、新しいアーキテクチャ設計と臨床AI研究を進めるための事前学習戦略の基礎を提供する。
コードはhttps://github.com/DDVD233/climb.comで公開されている。
関連論文リスト
- Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Efficient MedSAMs: Segment Anything in Medical Images on Laptop [69.28565867103542]
我々は,迅速な医用画像のセグメンテーションに特化した初の国際コンペを組織した。
トップチームは軽量なセグメンテーション基盤モデルを開発し、効率的な推論パイプラインを実装した。
最高のパフォーマンスのアルゴリズムは、臨床導入を促進するために、ユーザフレンドリーなインターフェースを備えたオープンソースソフトウェアに組み込まれている。
論文 参考訳(メタデータ) (2024-12-20T17:33:35Z) - Medical Multimodal Foundation Models in Clinical Diagnosis and Treatment: Applications, Challenges, and Future Directions [32.23790363311414]
近年の深層学習の進歩は臨床診断と治療の分野に革命をもたらした。
医療マルチモーダル・ファンデーション・モデル (MMFM) は幅広い臨床業務に適応している。
論文 参考訳(メタデータ) (2024-12-03T17:50:19Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Rethinking Model Prototyping through the MedMNIST+ Dataset Collection [0.11999555634662634]
本研究は,MedMNIST+データベースに対する評価環境の多様化のためのベンチマークを示す。
我々は、医用画像分類のための共通畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのアーキテクチャを徹底的に分析する。
この結果から,計算効率のよいトレーニングスキームと最新の基礎モデルは,高額なエンドツーエンドトレーニングとリソース強化アプローチのギャップを埋める上で有望であることが示唆された。
論文 参考訳(メタデータ) (2024-04-24T10:19:25Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - DiCoM -- Diverse Concept Modeling towards Enhancing Generalizability in Chest X-Ray Studies [6.83819481805979]
胸部X線(胸部X線、CXR)は、広く用いられている画像モダリティである。
自己指導型プレトレーニングは、多くの下流視覚タスクにおいて教師付きプレトレーニングよりも優れていることが証明されている。
本稿では,新しい自己教師型トレーニングパラダイムであるDiCoMについて紹介する。
論文 参考訳(メタデータ) (2024-02-22T20:51:37Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z) - Multi-objective optimization determines when, which and how to fuse deep
networks: an application to predict COVID-19 outcomes [1.8351254916713304]
マルチモーダル・エンド・ツー・エンドモデルのセットアップを最適化する新しい手法を提案する。
我々はAIforCOVIDデータセット上でテストを行い、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-04-07T23:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。