論文の概要: Medical Multimodal-Multitask Foundation Model for Superior Chest CT
Performance
- arxiv url: http://arxiv.org/abs/2304.02649v2
- Date: Wed, 13 Mar 2024 14:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:01.631326
- Title: Medical Multimodal-Multitask Foundation Model for Superior Chest CT
Performance
- Title(参考訳): 胸部CTにおけるマルチモーダル・マルチタスクの基礎モデル
上演
- Authors: Chuang Niu, Qing Lyu, Christopher D. Carothers, Parisa Kaviani, Josh
Tan, Pingkun Yan, Mannudeep K. Kalra, Christopher T. Whitlow, Ge Wang
- Abstract要約: 患者管理にはマルチモーダルデータとのマルチタスクインタラクションが必要である。
第一種医療マルチモーダルマルチタスク基盤モデル(M3FM)を提案する。
M3FMは、肺がんスクリーニング、心臓疾患予測、その他のCT関連タスクに優れたボリュームCT画像撮影性能を実現している。
- 参考スコア(独自算出の注目度): 14.850088420906175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patient management requires multitasking interaction with multimodal data.
While today's AI, particularly large foundation models, promises unprecedented
opportunities, progress remains relatively slow in developing medical
multimodal multitask foundation models. There are two main challenges along
this direction: the data challenge -- the high bar to curate medical multimodal
multitask datasets including 3D medical tomographic images in alignment with
other clinical datasets, and the model challenge -- the unavailability of a
scalable and adaptable foundation model architecture to synergize multimodal
datasets for diverse clinical tasks. Here we propose the first-of-its-kind
medical multimodal-multitask foundation model (M3FM) with an emphasis on lung
cancer screening. To train our M3FM, we first curated a comprehensive
multimodal multitask dataset consisting of 163,725 3D chest CT exams, 48
clinical data types, and 17 medical tasks on lung, heart, and other chest
diseases. Then, we created and applied a multimodal question-answering
framework as a unified training strategy to effectively integrate multimodal
information and naturally perform multiple tasks with free-text prompting.
Extensive experimental results demonstrate that M3FM consistently outperforms
the previous state-of-the-art models. M3FM can identify informative multimodal
data elements that are relevant to specific clinical tasks, being instrumental
in building AI models and gaining insights into correlations among multimodal
data and diseases. M3FM can be adapted to boost the performance of new tasks
with a small out-of-distribution dataset. M3FM has enabled superior volumetric
CT imaging performance for lung cancer screening, cardiac disease prediction,
and other CT-related tasks. M3FM can be extended to incorporate more data types
and improve other medical tasks, towards AI-empowered precise and efficient
medicine.
- Abstract(参考訳): 患者管理にはマルチモーダルデータとのマルチタスクインタラクションが必要である。
今日のAI、特に大規模ファンデーションモデルは、前例のない機会を約束するが、医療マルチモーダルマルチタスクファンデーションモデルの開発における進歩は、依然として比較的遅い。
データチャレンジ - 医療用マルチモーダルなマルチタスクデータセットを、他の臨床用データセットに合わせて3次元の医用トモグラフィ画像を含むキュレートするための高いバー、モデルチャレンジ -- スケーラブルで適応可能な基礎モデルアーキテクチャが、さまざまな臨床用タスクのためにマルチモーダルなデータセットを相乗化できない、という2つの課題がある。
本稿では,肺がん検診に重点を置き,M3FM(Multimodal-multitask foundation model)を提案する。
M3FMをトレーニングするために、まず163,725個の胸部CT検査、48種類の臨床データ、肺、心臓、その他の胸部疾患に関する17の医療タスクからなる総合的マルチタスクデータセットを収集した。
そこで我々は,マルチモーダル情報を効果的に統合し,自由文プロンプトで自然に複数のタスクを実行するための統一的な学習戦略として,マルチモーダル質問応答フレームワークを作成し,適用した。
大規模な実験結果から、M3FMは従来の最先端モデルよりも一貫して優れていたことが示されている。
M3FMは、特定の臨床タスクに関連する情報的マルチモーダルデータ要素を特定し、AIモデルの構築に役立ち、マルチモーダルデータと疾患間の相関に関する洞察を得る。
M3FMは、小さなアウト・オブ・ディストリビューションデータセットを使用して、新しいタスクのパフォーマンスを向上させるように適応できる。
M3FMは、肺がん検診、心臓疾患予測、その他のCT関連タスクにおいて、より優れたボリュームCT画像撮影性能を実現している。
M3FMは、AIを活用した正確かつ効率的な医療に向けて、より多くのデータタイプを組み込んで、他の医療タスクを改善するために拡張することができる。
関連論文リスト
- MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - MultiMed: Massively Multimodal and Multitask Medical Understanding [41.160488390597905]
MultiMedは、幅広い医学的モダリティとタスクにわたる大規模学習の評価と有効化を目的として設計されたベンチマークである。
医療報告、病理学、ゲノム学、タンパク質データなど10の医療モダリティにまたがる256万のサンプルで構成されている。
我々はMultiMedを用いて、最先端のユニモーダル、マルチモーダル、マルチタスクモデルのベンチマークを行う。
論文 参考訳(メタデータ) (2024-08-22T18:41:36Z) - FlexCare: Leveraging Cross-Task Synergy for Flexible Multimodal Healthcare Prediction [34.732561455987145]
我々は、不完全なマルチモーダル入力に柔軟に対応するために、textbfFlexCareという統合医療予測モデルを提案する。
タスクに依存しないマルチモーダル情報抽出モジュールを提示し、多様なモダリティ内およびモダリティ間パターンの非相関表現をキャプチャする。
MIMIC-IV/MIMIC-CXR/MIMIC-NOTEデータセットによる複数のタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-17T12:03:10Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。