Fugu-MT 論文翻訳(概要): Proxy Prompt: Endowing SAM and SAM 2 with Auto-Interactive-Prompt for Medical Segmentation

論文の概要: Proxy Prompt: Endowing SAM and SAM 2 with Auto-Interactive-Prompt for Medical Segmentation

arxiv url: http://arxiv.org/abs/2502.03501v1
Date: Wed, 05 Feb 2025 10:01:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.464213
Title: Proxy Prompt: Endowing SAM and SAM 2 with Auto-Interactive-Prompt for Medical Segmentation
Title（参考訳）: Proxy Prompt: SAM と SAM 2 の術式
Authors: Wang Xinyi, Kang Hongyu, Wei Peishan, Shuai Li, Yu Sun, Sai Kit Lam, Yongping Zheng,
Abstract要約: プリアノテートマスクを用いた非ターゲットデータを利用して自動生成するProxy Prompt (PP)を提案する。非ターゲットデータから最も代表的な文脈情報を適応的に選択する3段階のコンテキスト選択戦略を考案する。提案手法は,4つの公開データセット上での最先端性能を達成し,16個の画像マスクでトレーニングした場合でも,完全に訓練されたモデルと同等の結果が得られる。
参考スコア（独自算出の注目度）: 9.375538256947154
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we aim to address the unmet demand for automated prompting and enhanced human-model interactions of SAM and SAM2 for the sake of promoting their widespread clinical adoption. Specifically, we propose Proxy Prompt (PP), auto-generated by leveraging non-target data with a pre-annotated mask. We devise a novel 3-step context-selection strategy for adaptively selecting the most representative contextual information from non-target data via vision mamba and selective maps, empowering the guiding capability of non-target image-mask pairs for segmentation on target image/video data. To reinforce human-model interactions in PP, we further propose a contextual colorization module via a dual-reverse cross-attention to enhance interactions between target features and contextual-embedding with amplifying distinctive features of user-defined object(s). Via extensive evaluations, our method achieves state-of-the-art performance on four public datasets and yields comparable results with fully-trained models, even when trained with only 16 image masks.
Abstract（参考訳）: 本稿では,SAM と SAM2 の人-モデル相互作用を促進・促進するための非金属的需要に対処することを目的とする。具体的には,プリアノテートマスクを用いた非ターゲットデータを利用して自動生成するProxy Prompt (PP)を提案する。我々は、視覚マンバと選択マップを介して、最も代表的なコンテキスト情報を適応的に選択する新しい3段階のコンテキスト選択戦略を考案し、ターゲット画像/映像データに対するセグメンテーションのための非ターゲット画像-マスクペアの誘導能力を高める。 PPにおける人間-モデル相互作用の強化を目的として,ユーザ定義オブジェクトの特色を増幅したコンテキスト-埋め込みとターゲット特徴との相互作用を強化するために,デュアル・リバース・クロスアテンションによるコンテキスト-カラー化モジュールを提案する。提案手法は,4つの公開データセットに対して最先端のパフォーマンスを達成し,16個の画像マスクでトレーニングした場合でも,完全に訓練されたモデルと同等の結果が得られる。

関連論文リスト

Towards Fine-grained Interactive Segmentation in Images and Videos [21.22536962888316]
SAM2のバックボーン上に構築されたSAM2Refinerフレームワークを提案する。このアーキテクチャによりSAM2は、画像とビデオの両方のきめ細かいセグメンテーションマスクを生成することができる。さらに,マルチスケールのカスケード構造を用いてマスク特徴とエンコーダの階層的表現を融合させることによりマスクリファインメントモジュールを考案した。
論文参考訳（メタデータ） (2025-02-12T06:38:18Z)
ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文参考訳（メタデータ） (2025-02-05T15:22:20Z)
IMDPrompter: Adapting SAM to Image Manipulation Detection by Cross-View Automated Prompt Learning [33.15442780576408]
Segment Anything Model (SAM) は例外的な一般化とゼロショット機能を示した。我々はSAMに基づくIMDPrompterと呼ばれるクロスビュープロンプト学習パラダイムを開発した。 IMDPrompterは手動によるガイダンスに依存しなくなり、自動検出とローカライゼーションが可能になった。
論文参考訳（メタデータ） (2025-02-04T16:20:41Z)
SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文参考訳（メタデータ） (2025-01-27T13:07:51Z)
PGP-SAM: Prototype-Guided Prompt Learning for Efficient Few-Shot Medical Image Segmentation [16.043307024789062]
PGP-SAMはプロトタイプベースの数ショットチューニングアプローチで、限られたサンプルを使用して面倒な手作業のプロンプトを置き換える。私たちのキーとなるアイデアは、クラス固有の知識と関係を捉えるために、クラス内およびクラス内プロトタイプを活用することです。パブリックな多臓器データセットとプライベートな心室データセットの実験により、PGP-SAMは既存のプロンプトフリーSAMの変種と比較してDiceスコアが優れていることが示された。
論文参考訳（メタデータ） (2025-01-12T02:57:04Z)
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。 2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文参考訳（メタデータ） (2024-05-29T02:34:13Z)
CLIP-based Synergistic Knowledge Transfer for Text-based Person Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。 CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文参考訳（メタデータ） (2023-09-18T05:38:49Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction [74.52904110197004]
本稿では,近隣相互作用に基づくCTR予測を提案し,そのタスクを異種情報ネットワーク(HIN)設定に組み込む。周辺地域の表現を高めるために,ノード間のトポロジカルな相互作用を4種類検討する。本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。
論文参考訳（メタデータ） (2022-01-25T12:44:23Z)
CoADNet: Collaborative Aggregation-and-Distribution Networks for Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文参考訳（メタデータ） (2020-11-10T04:28:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。