論文の概要: Efficient In-Context Medical Segmentation with Meta-driven Visual Prompt Selection
- arxiv url: http://arxiv.org/abs/2407.11188v1
- Date: Mon, 15 Jul 2024 19:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:31:15.405488
- Title: Efficient In-Context Medical Segmentation with Meta-driven Visual Prompt Selection
- Title(参考訳): メタ駆動型視覚プロンプト選択による高能率インコンテキストメディカルセグメンテーション
- Authors: Chenwei Wu, David Restrepo, Zitao Shuai, Zhongming Liu, Liyue Shen,
- Abstract要約: 本稿では,Meta-driven Visual Prompt Selection Mechanism (MVPS)を導入し,ラベル効率のよい医用セグメンテーション手法を提案する。
MVPSは柔軟で微調整のないモジュールで、異なるバックボーンに簡単にプラグインでき、他のモデル中心のアプローチと組み合わせることができる。
- 参考スコア(独自算出の注目度): 5.4498959901128226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In-context learning (ICL) with Large Vision Models (LVMs) presents a promising avenue in medical image segmentation by reducing the reliance on extensive labeling. However, the ICL performance of LVMs highly depends on the choices of visual prompts and suffers from domain shifts. While existing works leveraging LVMs for medical tasks have focused mainly on model-centric approaches like fine-tuning, we study an orthogonal data-centric perspective on how to select good visual prompts to facilitate generalization to medical domain. In this work, we propose a label-efficient in-context medical segmentation method by introducing a novel Meta-driven Visual Prompt Selection mechanism (MVPS), where a prompt retriever obtained from a meta-learning framework actively selects the optimal images as prompts to promote model performance and generalizability. Evaluated on 8 datasets and 4 tasks across 3 medical imaging modalities, our proposed approach demonstrates consistent gains over existing methods under different scenarios, improving both computational and label efficiency. Finally, we show that MVPS is a flexible, finetuning-free module that could be easily plugged into different backbones and combined with other model-centric approaches.
- Abstract(参考訳): 大規模視覚モデル(LVM)を用いたインコンテキストラーニング(ICL)では,広範囲なラベリングへの依存を軽減し,医用画像のセグメンテーションにおいて有望な道を示す。
しかし、LVMのICL性能は視覚的プロンプトの選択に大きく依存しており、ドメインシフトに悩まされている。
LVMを医療タスクに活用する既存の研究は、主に微調整のようなモデル中心のアプローチに焦点が当てられているが、医療領域への一般化を促進するための優れた視覚的プロンプトの選択方法に関する直交的なデータ中心の視点について研究している。
本稿では,メタラーニングフレームワークから取得したプロンプトレシーバが,モデル性能と一般化性を促進するプロンプトとして最適な画像を積極的に選択する,新しいメタ駆動型ビジュアルプロンプト選択機構(MVPS)を導入することで,ラベル効率のよい医用セグメンテーション手法を提案する。
提案手法は,3つの医用画像モダリティにまたがる8つのデータセットと4つのタスクに基づいて評価し,既存の手法に対して異なるシナリオ下での一貫した利得を示し,計算効率とラベル効率を改善した。
最後に、MVPSは柔軟で微調整のないモジュールであり、異なるバックボーンに簡単にプラグインでき、他のモデル中心のアプローチと組み合わせることができることを示す。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training [5.819704618007536]
自然画像とテキストペアに事前訓練された視覚言語モデル(VLM)は、医学的文脈に適用した場合、大きな障壁となる。
本稿では, 選択的サンプリング法と強陰性マイニング法を用いて, VLMを医療領域に適応させるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T04:04:36Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic
Cross-modal Learnable Prompts [14.681493967465693]
動的クロスモーダル学習型プロンプトを用いた統一医療ビジョン言語モデルUniDCPを提案する。
UniDCPは、14のデータセットで8つの医学的ユニモーダルタスクとクロスモーダルタスクを実行することができる。
論文 参考訳(メタデータ) (2023-12-18T13:18:24Z) - ScribbleVC: Scribble-supervised Medical Image Segmentation with
Vision-Class Embedding [5.425414924685109]
ScribbleVCは、スクリブル管理された医療画像セグメンテーションのための新しいフレームワークである。
提案手法は,スクリブルベースアプローチとセグメンテーションネットワークとクラス埋め込みモジュールを組み合わせることで,正確なセグメンテーションマスクを生成する。
ScribbleVCを3つのベンチマークデータセットで評価し、最先端の手法と比較する。
論文 参考訳(メタデータ) (2023-07-30T13:38:52Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - Toward Unpaired Multi-modal Medical Image Segmentation via Learning
Structured Semantic Consistency [24.78258331561847]
本稿では,異なるモダリティの相互利益を学習し,不自由な医療画像に対してより良いセグメンテーション結果を得るための新しい手法を提案する。
我々は、慎重に設計された外部注意モジュール(EAM)を利用して、セマンティッククラス表現とそれらの異なるモダリティの相関を調整します。
提案手法の有効性を2つの医療画像セグメンテーションシナリオで実証した。
論文 参考訳(メタデータ) (2022-06-21T17:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。