論文の概要: One-shot Localization and Segmentation of Medical Images with Foundation
Models
- arxiv url: http://arxiv.org/abs/2310.18642v1
- Date: Sat, 28 Oct 2023 08:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:17:44.238504
- Title: One-shot Localization and Segmentation of Medical Images with Foundation
Models
- Title(参考訳): 基礎モデルを用いた医用画像のワンショット定位とセグメンテーション
- Authors: Deepa Anand, Gurunath Reddy M, Vanika Singhal, Dattesh D. Shanbhag,
Shriram KS, Uday Patil, Chitresh Bhushan, Kavitha Manickam, Dawei Gui, Rakesh
Mullick, Avinash Gopal, Parminder Bhatia, Taha Kass-Hout
- Abstract要約: 自然画像上で訓練されたモデルが,医用画像上で優れた性能を発揮することを示す。
テンプレート画像に対する対応を利用して、Segment Anything(SAM)モデルを単一ショットセグメンテーションに到達させる。
また,本手法は,最近提案された複数ショットセグメンテーション法であるUniverSegよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 7.9060536840474365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision Transformers (ViT) and Stable Diffusion (SD) models
with their ability to capture rich semantic features of the image have been
used for image correspondence tasks on natural images. In this paper, we
examine the ability of a variety of pre-trained ViT (DINO, DINOv2, SAM, CLIP)
and SD models, trained exclusively on natural images, for solving the
correspondence problems on medical images. While many works have made a case
for in-domain training, we show that the models trained on natural images can
offer good performance on medical images across different modalities
(CT,MR,Ultrasound) sourced from various manufacturers, over multiple anatomical
regions (brain, thorax, abdomen, extremities), and on wide variety of tasks.
Further, we leverage the correspondence with respect to a template image to
prompt a Segment Anything (SAM) model to arrive at single shot segmentation,
achieving dice range of 62%-90% across tasks, using just one image as
reference. We also show that our single-shot method outperforms the recently
proposed few-shot segmentation method - UniverSeg (Dice range 47%-80%) on most
of the semantic segmentation tasks(six out of seven) across medical imaging
modalities.
- Abstract(参考訳): 視覚変換器 (ViT) と安定拡散 (SD) モデルの最近の進歩は、画像のリッチな意味的特徴を捉える能力によって、自然画像上の画像対応タスクに利用されている。
本稿では,自然画像のみに特化して訓練された各種事前学習型VIT(DINO, DINOv2, SAM, CLIP)とSDモデルを用いて,医用画像の対応問題を解く能力について検討する。
多くの研究がドメイン内トレーニングに取り組んできたが、自然画像に基づいて訓練されたモデルは、様々なメーカーから得られた様々なモダリティ(CT,MR,Ultrasound)、複数の解剖学的領域(脳、胸骨、腹部、肢)、および様々なタスクにわたる医療画像に優れたパフォーマンスを提供できることを示した。
さらに,テンプレート画像に対する対応を利用して,segment anything(sam)モデルが単一ショットセグメンテーションに到達するように促し,単一の画像のみを参照として,タスク間で62%~90%のサイス範囲を達成する。
また,本手法は,最近提案された少数ショットセグメンテーション手法であるUniverSeg(Dice range 47%-80%)を,医用画像モダリティにおける意味セグメンテーションタスク(7点中6点)のほとんどで上回っていることを示す。
関連論文リスト
- TransMed: Large Language Models Enhance Vision Transformer for
Biomedical Image Classification [11.202967500669402]
ごく少数のサンプルでモデルをタスクに適応させるために、いくつかのショットラーニングが研究されている。
大規模言語モデル(LLM)を用いてラベルを文脈化する新しい手法を提案する。
以上の結果から,LLMが生成するコンテキストは,類似のカテゴリに対する意味埋め込みの識別を著しく向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T09:58:07Z) - Multi-Prompt Fine-Tuning of Foundation Models for Enhanced Medical Image
Segmentation [10.946806607643689]
Segment Anything Model (SAM) は、自然画像セグメンテーションの革命的進歩を導入した強力な基礎モデルである。
本研究では,SAMのイメージ毎に複数のプロンプトをバンドルして処理する機能を活用した,新しい微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-03T19:05:00Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - Towards Segment Anything Model (SAM) for Medical Image Segmentation: A
Survey [8.76496233192512]
本稿では,セグメンテーションモデルの成功を医療画像のセグメンテーションタスクに拡張する取り組みについて論じる。
医用画像解析の基礎モデルを開発するために、将来の研究を導くために多くの洞察が導かれる。
論文 参考訳(メタデータ) (2023-05-05T16:48:45Z) - Zero-shot performance of the Segment Anything Model (SAM) in 2D medical
imaging: A comprehensive evaluation and practical guidelines [0.13854111346209866]
Segment Anything Model (SAM)は、大規模なトレーニングデータセットを使用して、ほぼすべてのオブジェクトをセグメント化する。
この結果から,SAMのゼロショット性能は,現在の最先端技術に匹敵するものであることが判明した。
我々は、一貫して堅牢な結果をもたらしながら、最小限の相互作用を必要とする実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2023-04-28T22:07:24Z) - Generalist Vision Foundation Models for Medical Imaging: A Case Study of
Segment Anything Model on Zero-Shot Medical Segmentation [5.547422331445511]
9つの医用画像セグメンテーションベンチマークにおいて,定量および定性的ゼロショットセグメンテーションの結果を報告する。
本研究は,医用画像における一般視基盤モデルの汎用性を示すものである。
論文 参考訳(メタデータ) (2023-04-25T08:07:59Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Universal Model for Multi-Domain Medical Image Retrieval [88.67940265012638]
医用画像検索(MIR)は、医師が類似した患者のデータを素早く見つけるのに役立つ。
MIRはデジタル画像モダリティの多用により、ますます役に立ちつつある。
しかし、病院における様々なデジタル画像モダリティの人気もまた、MIRにいくつかの課題をもたらしている。
論文 参考訳(メタデータ) (2020-07-14T23:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。