論文の概要: Curriculum Prompting Foundation Models for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2409.00695v1
- Date: Sun, 1 Sep 2024 11:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 12:52:28.647310
- Title: Curriculum Prompting Foundation Models for Medical Image Segmentation
- Title(参考訳): 医用画像セグメンテーションのためのカリキュラムプロンプティング基礎モデル
- Authors: Xiuqi Zheng, Yuhang Zhang, Haoran Zhang, Hongrui Liang, Xueqi Bao, Zhuqing Jiang, Qicheng Lao,
- Abstract要約: 医療画像のセグメンテーションにSAMのような、訓練済みの大規模な基礎モデルを適用することは、依然として大きな課題である。
過去の研究は各インスタンスの特定のタイプのプロンプトに大きく依存しており、理想的に正しいプロンプトのマニュアル入力を必要とする。
本稿では,原画像から得られた異なる粒度のプロンプトを利用して,より広範な臨床所見を提供することを提案する。
そこで我々は,異なるタイプのプロンプトを段階的に統合する,カリキュラムプロンプトと呼ばれる粗大な機構を設計した。
- 参考スコア(独自算出の注目度): 17.33821260899367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting large pre-trained foundation models, e.g., SAM, for medical image segmentation remains a significant challenge. A crucial step involves the formulation of a series of specialized prompts that incorporate specific clinical instructions. Past works have been heavily reliant on a singular type of prompt for each instance, necessitating manual input of an ideally correct prompt, which is less efficient. To tackle this issue, we propose to utilize prompts of different granularity, which are sourced from original images to provide a broader scope of clinical insights. However, combining prompts of varying types can pose a challenge due to potential conflicts. In response, we have designed a coarse-to-fine mechanism, referred to as curriculum prompting, that progressively integrates prompts of different types. Through extensive experiments on three public medical datasets across various modalities, we demonstrate the effectiveness of our proposed approach, which not only automates the prompt generation process but also yields superior performance compared to other SAM-based medical image segmentation methods. Code is available at: https://github.com/AnnaZzz-zxq/Curriculum-Prompting.
- Abstract(参考訳): 医療画像のセグメンテーションに大規模な事前訓練された基礎モデル(SAMなど)を適用することは、依然として大きな課題である。
重要なステップは、特定の臨床指示を組み込んだ一連の特別なプロンプトの定式化である。
過去の作業は各インスタンスの特定のタイプのプロンプトに大きく依存しており、理想的に正しいプロンプトを手動で入力する必要がある。
この問題に対処するために,原画像から得られた異なる粒度のプロンプトを利用して,より広範な臨床所見を提供することを提案する。
しかし、様々な種類のプロンプトを組み合わせることは、潜在的な衝突のために課題となる可能性がある。
そこで我々は,異なるタイプのプロンプトを段階的に統合する,カリキュラムプロンプトと呼ばれる粗大な機構を設計した。
様々な形態の3つの公開医療データセットに関する広範な実験を通じて、提案手法の有効性を実証し、即時生成プロセスを自動化するだけでなく、他のSAMベースの医用画像分割法と比較して優れた性能が得られることを示した。
コードは、https://github.com/AnnaZzz-zxq/Curriculum-Prompting.comで入手できる。
関連論文リスト
- Med-PerSAM: One-Shot Visual Prompt Tuning for Personalized Segment Anything Model in Medical Domain [30.700648813505158]
文脈内学習に適したプロンプトを組み込んだ事前学習モデルの活用は、NLPタスクにおいて極めて効果的であることが証明されている。
textbfMed-PerSAMは,医療領域向けに設計された,新規で簡単なワンショット・フレームワークである。
本モデルは,多様な2次元医用画像データセットにおいて,基礎モデルおよび従来のSAMベースのアプローチより優れる。
論文 参考訳(メタデータ) (2024-11-25T06:16:17Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - TP-DRSeg: Improving Diabetic Retinopathy Lesion Segmentation with Explicit Text-Prompts Assisted SAM [13.960042520448646]
そこで本研究では,テキストプロンプト型糖尿病網膜症(DR)病変のセグメンテーションのためにSAMをカスタマイズする新しいフレームワークを提案する。
私たちの中核となる考え方は、医学的な事前知識を視覚のみのセグメンテーションネットワークに注入するために言語キューを活用することです。
具体的には、医療概念認識における視覚言語モデルの可能性を明らかにするために、明示的な事前エンコーダを提案する。
論文 参考訳(メタデータ) (2024-06-22T07:00:35Z) - Improving Segment Anything on the Fly: Auxiliary Online Learning and Adaptive Fusion for Medical Image Segmentation [52.172885882728174]
医療画像の文脈では、SAMがそのセグメンテーション予測を生成した後、人間の専門家が特定のテストサンプルのセグメンテーションを修正することは珍しくない。
我々は、オンライン機械学習の利点を活用して、テスト期間中にSegment Anything(SA)を強化する新しいアプローチを導入する。
医用画像におけるSAのセグメンテーション品質を改善することを目的として,オンライン学習のための修正アノテーションを用いた。
論文 参考訳(メタデータ) (2024-06-03T03:16:25Z) - Medical Visual Prompting (MVP): A Unified Framework for Versatile and High-Quality Medical Image Segmentation [15.460598807078751]
自然言語処理(NLP)の概念を事前学習・促進する医用ビジュアルプロンプト(MVP)フレームワークを提案する。
MVPにより、セグメンテーションネットワークは、情報を促進する形状をよりよく学習し、異なるタスク間での相互学習を促進することができる。
この新しい枠組みは、より少ないパラメータで性能を向上し、様々な医療課題における病変領域の正確なセグメンテーションに有意な可能性を秘めている。
論文 参考訳(メタデータ) (2024-04-01T14:06:48Z) - EviPrompt: A Training-Free Evidential Prompt Generation Method for
Segment Anything Model in Medical Images [14.899388051854084]
医用画像のセグメンテーションは、臨床応用性は非常に高いが、深層学習の進歩にもかかわらず、依然として課題である。
本稿では,これらの課題を克服するために,EviPromptという新たなトレーニング不要なエフェクトプロンプト生成手法を提案する。
提案手法は,医用画像に固有の類似性に基づいて構築され,単一の参照画像アノテーションペアのみを必要とする。
論文 参考訳(メタデータ) (2023-11-10T21:22:22Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。
複数のデータセットで競合する結果を得る。
論文 参考訳(メタデータ) (2023-08-15T08:20:07Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。