論文の概要: PR-MaGIC: Prompt Refinement Via Mask Decoder Gradient Flow For In-Context Segmentation
- arxiv url: http://arxiv.org/abs/2604.12113v1
- Date: Mon, 13 Apr 2026 22:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.15043
- Title: PR-MaGIC: Prompt Refinement Via Mask Decoder Gradient Flow For In-Context Segmentation
- Title(参考訳): PR-MaGIC: In-Contextセグメンテーションのためのマスクデコーダ勾配流れのプロンプトリファインメント
- Authors: Minjae Lee, Sungwoo Hur, Soojin Hwang, Won Hwa Kim,
- Abstract要約: 我々は,SAMのマスクデコーダからの勾配流によるプロンプトを洗練させる,トレーニング不要なテストタイムフレームワークであるPR-MaGIC(Prompt Refinement via Mask Decoder for In-Context)を紹介する。
PR-MaGICは、様々なベンチマークのセグメンテーション品質を一貫して改善し、トレーニングやアーキテクチャの変更を必要とせずに、効果的に不適切なプロンプトを緩和する。
- 参考スコア(独自算出の注目度): 12.227797182463611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Foundation Models (VFMs) such as the Segment Anything Model (SAM) have significantly advanced broad use of image segmentation. However, SAM and its variants necessitate substantial manual effort for prompt generation and additional training for specific applications. Recent approaches address these limitations by integrating SAM into in-context (one/few shot) segmentation, enabling auto-prompting through semantic alignment between query and support images. Despite these efforts, they still generate sub-optimal prompts that degrade segmentation quality due to visual inconsistencies between support and query images. To tackle this limitation, we introduce PR-MaGIC (Prompt Refinement via Mask Decoder Gradient Flow for In-Context Segmentation), a training-free test-time framework that refines prompts via gradient flow derived from SAM's mask decoder. PR-MaGIC seamlessly integrates into in-context segmentation frameworks, being theoretically grounded yet practically stabilized through a simple top-1 selection strategy that ensures robust performance across samples. Extensive evaluations demonstrate that PR-MaGIC consistently improves segmentation quality across various benchmarks, effectively mitigating inadequate prompts without requiring additional training or architectural modifications.
- Abstract(参考訳): Segment Anything Model (SAM) のような Visual Foundation Models (VFM) は、画像セグメンテーションを広く活用している。
しかし、SAMとその変種は、特定のアプリケーションのための迅速な生成と追加のトレーニングのためにかなりの手作業を必要としている。
最近のアプローチでは、SAMをインコンテキスト(ワン/フェーショット)セグメンテーションに統合することで、クエリとサポートイメージ間のセマンティックアライメントによる自動プロンプトを可能にすることで、これらの制限に対処している。
これらの努力にもかかわらず、サポートイメージとクエリイメージ間の視覚的不整合によりセグメンテーション品質が低下する、サブ最適プロンプトを生成する。
この制限に対処するために、SAMのマスクデコーダから派生した勾配流を介してプロンプトを洗練するトレーニングフリーなテストタイムフレームワークであるPR-MaGIC(Prompt Refinement via Mask Decoder Gradient Flow for In-Context Segmentation)を導入する。
PR-MaGICは、テキスト内のセグメンテーションフレームワークにシームレスに統合され、理論上は、サンプル間の堅牢なパフォーマンスを保証する単純なトップ1選択戦略によって、事実上安定化されている。
PR-MaGICは様々なベンチマークのセグメンテーション品質を一貫して改善し、トレーニングやアーキテクチャの変更を必要とせず、効果的に不適切なプロンプトを軽減している。
関連論文リスト
- Segment and Matte Anything in a Unified Model [5.8874968768571625]
Segment Anything (SAM)は先日,ゼロショットの一般化とフレキシブルプロンプトを実証することによって,セグメンテーションの境界を推し進めた。
SAMの軽量拡張であるSegment And Matte Anything(SAMA)を紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:43:10Z) - CLAPS: A CLIP-Unified Auto-Prompt Segmentation for Multi-Modal Retinal Imaging [47.04292769940597]
CLIP統合オートプロンプト(CLAPS)は,網膜イメージングにおける様々なタスクとモダリティをまたいだセグメンテーションを統一する新しい手法である。
私たちのアプローチは、CLIPベースの画像エンコーダを、大規模なマルチモーダル網膜データセット上で事前トレーニングすることから始まります。
タスクを統一し、曖昧さを解消するために、各画像のモダリティに固有の「モダリティシグネチャ」を付加したテキストプロンプトを使用する。
論文 参考訳(メタデータ) (2025-09-10T14:14:49Z) - No time to train! Training-Free Reference-Based Instance Segmentation [15.061599989448867]
本研究は,少数の参照画像のみを備える場合のオブジェクトセグメンテーションの課題について検討する。
我々の重要な洞察は、ファンデーションモデルによって学習された強力なセマンティック・プライドを活用して、参照とターゲット画像の間の対応する領域を特定することである。
対応によって、下流タスクのためのインスタンスレベルのセグメンテーションマスクの自動生成が可能になり、マルチステージのトレーニング不要な方法でアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2025-07-03T16:59:01Z) - DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - Task-Specific Adaptation of Segmentation Foundation Model via Prompt Learning [7.6136466242670435]
本稿では,Segment Anything Model(SAM)に適合した即時学習によるセグメンテーション基礎モデルのタスク固有適応を提案する。
本手法は,入力プロンプトを組込み空間に調整し,目的タスクの特異性に適合させるプロンプト学習モジュールを含む。
様々なセグメンテーションシナリオに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T09:13:51Z) - SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation [87.18373801829314]
In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。
単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
論文 参考訳(メタデータ) (2023-11-24T18:59:42Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。