論文の概要: IP-SAM: Prompt-Space Conditioning for Prompt-Absent Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2603.27250v1
- Date: Sat, 28 Mar 2026 11:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.866632
- Title: IP-SAM: Prompt-Space Conditioning for Prompt-Absent Camouflaged Object Detection
- Title(参考訳): IP-SAM:Prompt-Absent Camouflaged Object DetectionのためのPrompt-Space Conditioning
- Authors: Huiyao Zhang, Jin Bai, Rui Guo, JianWen Tan, HongFei Wang, Ye Li,
- Abstract要約: 本稿では,IP-SAMを提案する。IP-SAMは,プロンプト空間のコンディショニングを通じて,プロンプト空間の観点から適応を再考する。
具体的には、セルフプロンプトジェネレータは、画像コンテキストを粗い局所アンカーとして機能する相補的な固有のプロンプトに蒸留する。
この戦略はCODを超えて医療用ポリープセグメンテーションへと一般化し、Kvasir-SEGでのみ訓練されたモデルはCVC-ClinicDBとETISの両方に強力なゼロショット転送を示す。
- 参考スコア(独自算出の注目度): 18.53702903244438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-conditioned foundation segmenters have emerged as a dominant paradigm for image segmentation, where explicit spatial prompts (e.g., points, boxes, masks) guide mask decoding. However, many real-world deployments require fully automatic segmentation, creating a structural mismatch: the decoder expects prompts that are unavailable at inference. Existing adaptations typically modify intermediate features, inadvertently bypassing the model's native prompt interface and weakening prompt-conditioned decoding. We propose IP-SAM, which revisits adaptation from a prompt-space perspective through prompt-space conditioning. Specifically, a Self-Prompt Generator (SPG) distills image context into complementary intrinsic prompts that serve as coarse regional anchors. These cues are projected through SAM2's frozen prompt encoder, restoring prompt-guided decoding without external intervention. To suppress background-induced false positives, Prompt-Space Gating (PSG) leverages the intrinsic background prompt as an asymmetric suppressive constraint prior to decoding. Under a deterministic no-external-prompt protocol, IP-SAM achieves state-of-the-art performance across four camouflaged object detection benchmarks (e.g., MAE 0.017 on COD10K) with only 21.26M trainable parameters (optimizing SPG, PSG, and a task-specific mask decoder trained from scratch, alongside image-encoder LoRA while keeping the prompt encoder frozen). Furthermore, the proposed conditioning strategy generalizes beyond COD to medical polyp segmentation, where a model trained solely on Kvasir-SEG exhibits strong zero-shot transfer to both CVC-ClinicDB and ETIS.
- Abstract(参考訳): プロンプト条件付きファンデーションセグメンタはイメージセグメンテーションにおいて支配的なパラダイムとして現れており、明確な空間的プロンプト(例えば、ポイント、ボックス、マスク)をガイドマスクデコードする。
しかし、多くの実世界のデプロイメントでは、完全に自動セグメンテーションを必要とし、構造的なミスマッチを生成する。
既存の適応は典型的には中間機能を変更し、モデルのネイティブなプロンプトインターフェースを不注意にバイパスし、プロンプト条件付きデコーディングを弱める。
本稿では,IP-SAMを提案する。IP-SAMは,プロンプト空間のコンディショニングを通じて,プロンプト空間の観点から適応を再考する。
具体的には、SPG(Self-Prompt Generator)は、画像コンテキストを、粗い局所アンカーとして機能する相補的な固有のプロンプトに蒸留する。
これらのキューはSAM2の凍結プロンプトエンコーダを通して投影され、外部の介入なしにプロンプト誘導されたデコーディングを復元する。
背景誘発偽陽性を抑制するため、Prompt-Space Gating (PSG) は復号前の非対称的な抑制制約として固有のバックグラウンドプロンプトを利用する。
IP-SAMは決定論的非外部プロンプトプロトコルの下で、4つのカモフラージュされたオブジェクト検出ベンチマーク(例: MAE 0.017 on COD10K)で21.26Mのトレーニング可能なパラメータ(SPG、PSG、タスク固有のマスクデコーダをスクラッチからトレーニングし、画像エンコーダのLoRAとともにフリーズする)で最先端のパフォーマンスを達成する。
さらに,Kvasir-SEGのみを訓練したモデルは,CVC-ClinicDBとETISの両方に強いゼロショット転送を示す。
関連論文リスト
- StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models [57.674757786328236]
StructSAMは、Segment Anything Model(SAM)に適した解像度保存型マージアンマージフレームワークである
また,StructSAMはエンコーダFLOPsを25~30%削減し,mIoU/Diceに少量の低下を認めた。
また、スペクトルグラフ粗大化ビューでは、スコア誘導マージにより、ランダムまたはウィンドウ制限ベースラインと比較して、ラプラシアスペクトル歪みが有界となることを示す。
論文 参考訳(メタデータ) (2026-03-07T18:30:58Z) - UGround: Towards Unified Visual Grounding with Unrolled Transformers [42.58167803005241]
これは、textbfUnified visual textbfGrounding パラダイムで、textbfUnrolled transformer の中間層をプロンプトとしてマスクとして動的に選択する。
UGroundの中心となるのは、Skip Connection (SSC) と Mask as Prompt (MasP) の2つの重要なコンポーネントからなる、ポリシープロンプト型マスキングである。
論文 参考訳(メタデータ) (2025-10-04T15:56:52Z) - Attack for Defense: Adversarial Agents for Point Prompt Optimization Empowering Segment Anything Model [23.86303837709582]
本稿では,ポイントプロンプトを自動的に最適化する逆強化学習フレームワークであるPoint Prompt Defenderを提案する。
エージェントはSAMのセグメンテーション性能を最大に低下させるプロンプトのサブセットをアクティベートすることを学び、ディフェンダーエージェントはこれらの破壊的なプロンプトを抑えることを学び、精度を回復する。
実験の結果、Point Prompt DefenderはSAMの堅牢性と一般化を効果的に改善し、プロンプトベースのセグメンテーションのためのフレキシブルで解釈可能なプラグイン・アンド・プレイ・フレームワークを確立している。
論文 参考訳(メタデータ) (2025-09-23T10:59:24Z) - Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt
for Segmenting Camouflaged Objects [32.14438610147615]
我々はGeneralizable SAM(GenSAM)と呼ばれるテスト時間ごとの適応機構を導入し、視覚的プロンプトを自動生成し最適化する。
3つのベンチマーク実験により、GenSAMは点監督アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2023-12-12T15:43:36Z) - Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on
Segmentation Models [61.46999584579775]
汎用セグメンテーションモデルは、様々なプロンプトから(意味)セグメンテーションマスクを生成することができる。
特に、入力画像は、イメージエンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。
我々は、半径$エプシロン=1/255$の知覚不能な摂動でさえ、ポイント、ボックス、テキストプロンプトで予測されるマスクを劇的に修正するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-24T12:57:34Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually Separated Slots [65.302728042116]
意味的アノテーションがない場合の視覚知覚における物体の出現について検討する。
得られたモデルは、監督を受けておらず、事前訓練された特徴を一切使用していないが、画像の領域を複数の移動領域に分割することができる。
結果として得られる動き分節法は、未知のさまざまなオブジェクトをリアルタイムで処理することができる。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - SeCGAN: Parallel Conditional Generative Adversarial Networks for Face
Editing via Semantic Consistency [50.04141606856168]
目的のセマンティックマスクを指定せずにセマンティック情報を利用した顔画像の編集を行うラベル誘導型cGANを提案する。
SeCGANには2つのジェネレータと識別器が並列に動作しており、1つはRGBイメージを変換し、もう1つはセマンティックマスク用に訓練されている。
CelebAとCelebA-HQで得られた結果は、我々のアプローチがより正確な属性を持つ顔画像を生成することができることを示している。
論文 参考訳(メタデータ) (2021-11-17T18:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。