論文の概要: MOSMOS: Multi-organ segmentation facilitated by medical report supervision
- arxiv url: http://arxiv.org/abs/2409.02418v1
- Date: Wed, 4 Sep 2024 03:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 20:15:07.525859
- Title: MOSMOS: Multi-organ segmentation facilitated by medical report supervision
- Title(参考訳): MOSMOS:医療報告監督による多臓器分節化
- Authors: Weiwei Tian, Xinyu Huang, Junlin Hou, Caiyue Ren, Longquan Jiang, Rui-Wei Zhao, Gang Jin, Yuejie Zhang, Daoying Geng,
- Abstract要約: マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。
さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
- 参考スコア(独自算出の注目度): 10.396987980136602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Owing to a large amount of multi-modal data in modern medical systems, such as medical images and reports, Medical Vision-Language Pre-training (Med-VLP) has demonstrated incredible achievements in coarse-grained downstream tasks (i.e., medical classification, retrieval, and visual question answering). However, the problem of transferring knowledge learned from Med-VLP to fine-grained multi-organ segmentation tasks has barely been investigated. Multi-organ segmentation is challenging mainly due to the lack of large-scale fully annotated datasets and the wide variation in the shape and size of the same organ between individuals with different diseases. In this paper, we propose a novel pre-training & fine-tuning framework for Multi-Organ Segmentation by harnessing Medical repOrt Supervision (MOSMOS). Specifically, we first introduce global contrastive learning to maximally align the medical image-report pairs in the pre-training stage. To remedy the granularity discrepancy, we further leverage multi-label recognition to implicitly learn the semantic correspondence between image pixels and organ tags. More importantly, our pre-trained models can be transferred to any segmentation model by introducing the pixel-tag attention maps. Different network settings, i.e., 2D U-Net and 3D UNETR, are utilized to validate the generalization. We have extensively evaluated our approach using different diseases and modalities on BTCV, AMOS, MMWHS, and BRATS datasets. Experimental results in various settings demonstrate the effectiveness of our framework. This framework can serve as the foundation to facilitate future research on automatic annotation tasks under the supervision of medical reports.
- Abstract(参考訳): 医用画像やレポートなどの現代医療システムにおける多モーダルデータの多量化に伴い、医用ビジョン・ランゲージ・プレトレーニング(Med-VLP)は、大まかな下流作業(医療分類、検索、視覚的質問応答)において驚くべき成果を示した。
しかし,Med-VLPから学んだ知識を細粒度多臓器分割タスクに伝達する問題はほとんど研究されていない。
多臓器の分節化は、主に、大規模な完全注釈付きデータセットの欠如と、異なる疾患を持つ個人間での同一臓器の形状と大きさの広範囲な変化のために困難である。
本稿では,MOSMOS(Medical repOrt Supervision)を利用したマルチオーガンセグメンテーションのための,新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを最大限に調整するために、グローバルコントラスト学習を導入する。
さらに, 画像画素と臓器タグ間の意味的対応を暗黙的に学習するために, マルチラベル認識を活用する。
さらに重要なことは、事前訓練されたモデルは、ピクセルタグのアテンションマップを導入することで、任意のセグメンテーションモデルに転送できるということです。
2D U-Netと3D UNETRという異なるネットワーク設定を用いて、一般化の検証を行う。
我々は,BTCV,AMOS,MMWHS,BRATSデータセットのさまざまな疾患とモダリティを用いて,我々のアプローチを広く評価してきた。
各種設定における実験結果から,本フレームワークの有効性が示された。
この枠組みは、医療報告の監督の下で自動アノテーションタスクの今後の研究を促進する基盤として機能する。
関連論文リスト
- Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks [13.016940516468674]
本研究の目的は,医学的MLLMの解剖学的領域全体を理解する能力を高めることである。
本稿では,最初のバイリンガル・ジェネリスト医療用AIシステムである領域認識型医療用MLLM MedRegAを提案する。
我々のモデルは、バイリンガル設定における様々な医療ビジョン言語タスクにおける強力なパフォーマンスを達成するだけでなく、マルチモーダル・メディカルスキャンにおける構造を認識し、検出することができる。
論文 参考訳(メタデータ) (2024-10-24T02:55:41Z) - MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - UniMOS: A Universal Framework For Multi-Organ Segmentation Over
Label-Constrained Datasets [6.428456997507811]
完全かつ部分的にラベル付けされた画像とラベル付けされていない画像の活用を実現するための,初のユニバーサルフレームワークであるUniMOSを提案する。
我々は、一貫した正規化とラベルなしデータに対する擬似ラベル付け技術を組み合わせた半教師付きトレーニングモジュールを組み込んだ。
実験の結果,他の先進的な手法と比較して,いくつかの医用画像分割作業において優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2023-11-17T00:44:56Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels [54.58539616385138]
我々は、Mine yOur owN Anatomy (MONA) と呼ばれる、新しい半教師付き2次元医用画像セグメンテーションフレームワークを紹介する。
まず、先行研究では、すべてのピクセルがモデルトレーニングに等しく重要であると論じており、我々はこの1つだけで意味のある解剖学的特徴を定義できないことを経験的に観察している。
第2に,医療画像を解剖学的特徴の集合に分解できるモデルを構築する。
論文 参考訳(メタデータ) (2022-09-27T15:50:31Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - Uncertainty-aware multi-view co-training for semi-supervised medical
image segmentation and domain adaptation [35.33425093398756]
ラベルのないデータは、注釈付きデータよりもはるかに簡単に取得できる。
医用画像セグメンテーションのための不確実性を考慮したマルチビュー協調トレーニングを提案する。
我々のフレームワークは、ラベルのないデータを効率的に活用してパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-06-28T22:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。