論文の概要: MG-3D: Multi-Grained Knowledge-Enhanced 3D Medical Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2412.05876v1
- Date: Sun, 08 Dec 2024 09:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:34.399323
- Title: MG-3D: Multi-Grained Knowledge-Enhanced 3D Medical Vision-Language Pre-training
- Title(参考訳): MG-3D:多段階知識強化型3次元医用ビジョンランゲージ事前トレーニング
- Authors: Xuefeng Ni, Linshan Wu, Jiaxin Zhuang, Qiong Wang, Mingxiang Wu, Varut Vardhanabhuti, Lihai Zhang, Hanyu Gao, Hao Chen,
- Abstract要約: 3次元医用画像解析は多くの臨床応用において重要である。
3次元医用画像解析では、大規模視覚言語による事前訓練がまだ検討されていない。
大規模データ(47.1K)に基づいて事前学習したMG-3Dを提案する。
- 参考スコア(独自算出の注目度): 7.968487067774351
- License:
- Abstract: 3D medical image analysis is pivotal in numerous clinical applications. However, the scarcity of labeled data and limited generalization capabilities hinder the advancement of AI-empowered models. Radiology reports are easily accessible and can serve as weakly-supervised signals. However, large-scale vision-language pre-training (VLP) remains underexplored in 3D medical image analysis. Specifically, the insufficient investigation into multi-grained radiology semantics and their correlations across patients leads to underutilization of large-scale volume-report data. Considering intra-patient cross-modal semantic consistency and inter-patient semantic correlations, we propose a multi-task VLP method, MG-3D, pre-trained on large-scale data (47.1K), addressing the challenges by the following two aspects: 1) Establishing the correspondence between volume semantics and multi-grained medical knowledge of each patient with cross-modal global alignment and complementary modality-guided local reconstruction, ensuring intra-patient features of different modalities cohesively represent the same semantic content; 2) Correlating inter-patient visual semantics based on fine-grained report correlations across patients, and keeping sensitivity to global individual differences via contrastive learning, enhancing the discriminative feature representation. Furthermore, we delve into the scaling law to explore potential performance improvements. Comprehensive evaluations across nine uni- and cross-modal clinical tasks are carried out to assess model efficacy. Extensive experiments on both internal and external datasets demonstrate the superior transferability, scalability, and generalization of MG-3D, showcasing its potential in advancing feature representation for 3D medical image analysis. Code will be available: https://github.com/Xuefeng-Ni/MG-3D.
- Abstract(参考訳): 3次元医用画像解析は多くの臨床応用において重要である。
しかし、ラベル付きデータの不足と限定的な一般化能力は、AI駆動モデルの発展を妨げている。
放射線学の報告は容易にアクセスでき、弱い教師付き信号として機能する。
しかし,3次元医用画像解析では,大規模視覚言語事前訓練(VLP)が未検討である。
特に、多粒度放射線学のセマンティクスとその患者間の相関に関する調査が不十分なため、大規模ボリュームレポートデータの利用が不足している。
患者間のセマンティック一貫性と患者間のセマンティック相関を考慮し,大規模データ(47.1K)で事前学習したマルチタスクVLP法MG-3Dを提案する。
1) 経口的グローバルアライメントと相補的モダリティ誘導局所再建をともなう各患者のボリュームセマンティクスと多義的な医療知識の対応を確立し, 異なるモダリティの患者内特徴が同一のセマンティクス内容を結合的に表現すること。
2) 患者間での詳細な報告相関に基づく患者間視覚意味論の関連, 比較学習による世界的個人差への感受性の維持, 差別的特徴表現の強化。
さらに、スケーリングの法則を掘り下げて、潜在的なパフォーマンス改善を検討します。
モデルの有効性を評価するため,9つの一様および横断的な臨床課題を総合的に評価した。
内部および外部両方のデータセットに対する広範囲な実験により、MG-3Dの転送性、スケーラビリティ、一般化が向上し、3次元医用画像解析における特徴表現の進展の可能性を示している。
コードは、https://github.com/Xuefeng-Ni/MG-3D.comで入手できる。
関連論文リスト
- Improving 3D Medical Image Segmentation at Boundary Regions using Local Self-attention and Global Volume Mixing [14.0825980706386]
ボリューム・メディカル・イメージ・セグメンテーションは、与えられた3次元ボリューム・メディカル・イメージをボクセルレベルの精度で正確に分類することを目的とする医用画像解析の基本的な問題である。
本研究では,3次元医用画像セグメンテーションにおける局所的およびグローバルな依存関係を明示的に捉えることを目的とした,階層型エンコーダデコーダベースの新しいフレームワークを提案する。
提案フレームワークは,局所的なボリュームベースの自己アテンションを利用して局所的な依存関係を高解像度でエンコードし,低解像度の特徴表現でグローバルな依存関係をキャプチャする新しいボリュームミキサを導入する。
論文 参考訳(メタデータ) (2024-10-20T11:08:38Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Self-supervised 3D Patient Modeling with Multi-modal Attentive Fusion [32.71972792352939]
3次元患者体モデリングは、スマート・メディカル・スキャンおよび手術室における患者の自動位置決めの成功に不可欠である。
既存のCNNベースのエンドツーエンドの患者モデリングソリューションは、通常、大量の関連するトレーニングデータを必要とするカスタマイズされたネットワーク設計を必要とする。
a) 2次元関節局所化のための注意融合を伴うマルチモーダルキーポイント検出モジュールからなる汎用的なモジュール化された3次元患者モデリング手法を提案する。
本手法の有効性を,公用および臨床用両方のデータを用いた広範囲な患者位置決め実験により実証した。
論文 参考訳(メタデータ) (2024-03-05T18:58:55Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through
Probabilistic-aware Learning [52.249748801637196]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Uncertainty-aware multi-view co-training for semi-supervised medical
image segmentation and domain adaptation [35.33425093398756]
ラベルのないデータは、注釈付きデータよりもはるかに簡単に取得できる。
医用画像セグメンテーションのための不確実性を考慮したマルチビュー協調トレーニングを提案する。
我々のフレームワークは、ラベルのないデータを効率的に活用してパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-06-28T22:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。