論文の概要: MOSMOS: Multi-organ segmentation facilitated by medical report supervision
- arxiv url: http://arxiv.org/abs/2409.02418v1
- Date: Wed, 4 Sep 2024 03:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 20:15:07.525859
- Title: MOSMOS: Multi-organ segmentation facilitated by medical report supervision
- Title(参考訳): MOSMOS:医療報告監督による多臓器分節化
- Authors: Weiwei Tian, Xinyu Huang, Junlin Hou, Caiyue Ren, Longquan Jiang, Rui-Wei Zhao, Gang Jin, Yuejie Zhang, Daoying Geng,
- Abstract要約: マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。
さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
- 参考スコア(独自算出の注目度): 10.396987980136602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Owing to a large amount of multi-modal data in modern medical systems, such as medical images and reports, Medical Vision-Language Pre-training (Med-VLP) has demonstrated incredible achievements in coarse-grained downstream tasks (i.e., medical classification, retrieval, and visual question answering). However, the problem of transferring knowledge learned from Med-VLP to fine-grained multi-organ segmentation tasks has barely been investigated. Multi-organ segmentation is challenging mainly due to the lack of large-scale fully annotated datasets and the wide variation in the shape and size of the same organ between individuals with different diseases. In this paper, we propose a novel pre-training & fine-tuning framework for Multi-Organ Segmentation by harnessing Medical repOrt Supervision (MOSMOS). Specifically, we first introduce global contrastive learning to maximally align the medical image-report pairs in the pre-training stage. To remedy the granularity discrepancy, we further leverage multi-label recognition to implicitly learn the semantic correspondence between image pixels and organ tags. More importantly, our pre-trained models can be transferred to any segmentation model by introducing the pixel-tag attention maps. Different network settings, i.e., 2D U-Net and 3D UNETR, are utilized to validate the generalization. We have extensively evaluated our approach using different diseases and modalities on BTCV, AMOS, MMWHS, and BRATS datasets. Experimental results in various settings demonstrate the effectiveness of our framework. This framework can serve as the foundation to facilitate future research on automatic annotation tasks under the supervision of medical reports.
- Abstract(参考訳): 医用画像やレポートなどの現代医療システムにおける多モーダルデータの多量化に伴い、医用ビジョン・ランゲージ・プレトレーニング(Med-VLP)は、大まかな下流作業(医療分類、検索、視覚的質問応答)において驚くべき成果を示した。
しかし,Med-VLPから学んだ知識を細粒度多臓器分割タスクに伝達する問題はほとんど研究されていない。
多臓器の分節化は、主に、大規模な完全注釈付きデータセットの欠如と、異なる疾患を持つ個人間での同一臓器の形状と大きさの広範囲な変化のために困難である。
本稿では,MOSMOS(Medical repOrt Supervision)を利用したマルチオーガンセグメンテーションのための,新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを最大限に調整するために、グローバルコントラスト学習を導入する。
さらに, 画像画素と臓器タグ間の意味的対応を暗黙的に学習するために, マルチラベル認識を活用する。
さらに重要なことは、事前訓練されたモデルは、ピクセルタグのアテンションマップを導入することで、任意のセグメンテーションモデルに転送できるということです。
2D U-Netと3D UNETRという異なるネットワーク設定を用いて、一般化の検証を行う。
我々は,BTCV,AMOS,MMWHS,BRATSデータセットのさまざまな疾患とモダリティを用いて,我々のアプローチを広く評価してきた。
各種設定における実験結果から,本フレームワークの有効性が示された。
この枠組みは、医療報告の監督の下で自動アノテーションタスクの今後の研究を促進する基盤として機能する。
関連論文リスト
- UniMOS: A Universal Framework For Multi-Organ Segmentation Over
Label-Constrained Datasets [6.428456997507811]
完全かつ部分的にラベル付けされた画像とラベル付けされていない画像の活用を実現するための,初のユニバーサルフレームワークであるUniMOSを提案する。
我々は、一貫した正規化とラベルなしデータに対する擬似ラベル付け技術を組み合わせた半教師付きトレーニングモジュールを組み込んだ。
実験の結果,他の先進的な手法と比較して,いくつかの医用画像分割作業において優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2023-11-17T00:44:56Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z) - Multi-Level Global Context Cross Consistency Model for Semi-Supervised
Ultrasound Image Segmentation with Diffusion Model [0.0]
本研究では,Latent Diffusion Model (LDM) によって生成された画像を,半教師付き学習のためのラベル付き画像として利用するフレームワークを提案する。
提案手法により,確率分布の知識をセグメント化ネットワークに効果的に伝達することが可能となり,セグメント化精度が向上する。
論文 参考訳(メタデータ) (2023-05-16T14:08:24Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical
Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。
本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2023-03-20T06:26:49Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - AMOS: A Large-Scale Abdominal Multi-Organ Benchmark for Versatile
Medical Image Segmentation [32.938687630678096]
AMOSは、腹部臓器の分節のための大規模で多様な臨床データセットである。
さまざまなターゲットとシナリオの下で堅牢なセグメンテーションアルゴリズムを研究する上で、難しい例とテストベッドを提供する。
我々は、この新たな挑戦的データセット上で既存の方法の現状を評価するために、最先端の医療セグメンテーションモデルをいくつかベンチマークする。
論文 参考訳(メタデータ) (2022-06-16T09:27:56Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - Uncertainty-aware multi-view co-training for semi-supervised medical
image segmentation and domain adaptation [35.33425093398756]
ラベルのないデータは、注釈付きデータよりもはるかに簡単に取得できる。
医用画像セグメンテーションのための不確実性を考慮したマルチビュー協調トレーニングを提案する。
我々のフレームワークは、ラベルのないデータを効率的に活用してパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-06-28T22:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。