論文の概要: Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt
for Segmenting Camouflaged Objects
- arxiv url: http://arxiv.org/abs/2312.07374v1
- Date: Tue, 12 Dec 2023 15:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:24:29.750589
- Title: Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt
for Segmenting Camouflaged Objects
- Title(参考訳): SAMにおけるRelax画像特異的プロンプト要件:カモフラージュオブジェクトの分割のための単一のジェネリックプロンプト
- Authors: Jian Hu, Jiayi Lin, Weitong Cai, Shaogang Gong
- Abstract要約: 我々はGeneralizable SAM(GenSAM)と呼ばれるテスト時間ごとの適応機構を導入し、視覚的プロンプトを自動生成し最適化する。
3つのベンチマーク実験により、GenSAMは点監督アプローチより優れていることが示された。
- 参考スコア(独自算出の注目度): 32.14438610147615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflaged object detection (COD) approaches heavily rely on pixel-level
annotated datasets. Weakly-supervised COD (WSCOD) approaches use sparse
annotations like scribbles or points to reduce annotation effort, but this can
lead to decreased accuracy. The Segment Anything Model (SAM) shows remarkable
segmentation ability with sparse prompts like points. However, manual prompt is
not always feasible, as it may not be accessible in real-world application.
Additionally, it only provides localization information instead of semantic
one, which can intrinsically cause ambiguity in interpreting the targets. In
this work, we aim to eliminate the need for manual prompt. The key idea is to
employ Cross-modal Chains of Thought Prompting (CCTP) to reason visual prompts
using the semantic information given by a generic text prompt.To that end, we
introduce a test-time adaptation per-instance mechanism called Generalizable
SAM (GenSAM) to automatically enerate and optimize visual prompts the generic
task prompt for WSCOD. In particular, CCTP maps a single generic text prompt
onto image-specific consensus foreground and background heatmaps using
vision-language models, acquiring reliable visual prompts. Moreover, to
test-time adapt the visual prompts, we further propose Progressive Mask
Generation (PMG) to iteratively reweight the input image, guiding the model to
focus on the targets in a coarse-to-fine manner. Crucially, all network
parameters are fixed, avoiding the need for additional training. Experiments
demonstrate the superiority of GenSAM. Experiments on three benchmarks
demonstrate that GenSAM outperforms point supervision approaches and achieves
comparable results to scribble supervision ones, solely relying on general task
descriptions as prompts. our codes is in: https://lwpyh.github.io/GenSAM/.
- Abstract(参考訳): camouflaged object detection (cod)アプローチはピクセルレベルの注釈付きデータセットに大きく依存している。
弱教師付きCOD (WSCOD) アプローチでは、スクリブルやポイントのようなスパースアノテーションを使用してアノテーションの労力を削減するが、精度が低下する可能性がある。
Segment Anything Model (SAM)は、ポイントのようなスパースプロンプトで顕著なセグメンテーション能力を示す。
しかし、手動プロンプトは現実世界のアプリケーションではアクセスできない可能性があるため、必ずしも実現可能であるとは限らない。
さらに、セマンティックな情報の代わりにローカライズ情報のみを提供するので、ターゲットを解釈する際の曖昧さを本質的に引き起こすことができる。
この作業では,手作業によるプロンプトの不要化を目標としている。
鍵となる考え方は、汎用テキストプロンプトによって与えられる意味情報を用いて視覚的プロンプトを推論するために、CCTP(Cross-modal Chains of Thought Prompting)を採用することである。
特に、CCTPは視覚言語モデルを用いて画像固有のコンセンサスフォアグラウンドと背景ヒートマップに単一のジェネリックテキストプロンプトをマッピングし、信頼できる視覚的プロンプトを取得する。
さらに,視覚プロンプトをテスト時間に適応させるために,入力画像の繰り返し重み付けを行うプログレッシブマスク生成(pmg)を提案する。
重要なのは、すべてのネットワークパラメータが修正され、追加のトレーニングが不要になることだ。
GenSAMの優位性を示す実験。
3つのベンチマークによる実験は、gensamがポイント監督アプローチよりも優れており、プロンプトとして一般的なタスク記述のみに依存する、スクリブル監督アプローチと同等の結果を達成していることを示している。
私たちのコードは以下のとおりです。
関連論文リスト
- Generalizable Semantic Vision Query Generation for Zero-shot Panoptic
and Semantic Segmentation [3.1976724095315268]
Zero-shot Panoptic(ZPS)は、トレーニングで目に見えないカテゴリを含むイメージなしで、フォアグラウンドインスタンスやバックグラウンドオブジェクトを認識することを目的としている。
一般化可能なセマンティックビジョンクエリを生成するための条件付きtOken AligNmentとCycle trAnsiTion(CONCAT)を提案する。
ZPSの実験はSOTAを超える5.2%hPQの増加を達成した。
論文 参考訳(メタデータ) (2024-02-21T10:57:21Z) - Visual In-Context Prompting [100.93587329049848]
本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。
エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。
広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
論文 参考訳(メタデータ) (2023-11-22T18:59:48Z) - AdapterShadow: Adapting Segment Anything Model for Shadow Detection [6.201928340999525]
Segment Any Model (SAM)は、ユニバーサルオブジェクトのセグメンテーションにおいて、その壮大なパフォーマンスを示している。
しかし、医用画像の影画像や病変など特定のターゲットを特定できない。
影検出にSAMモデルを適用するAdapterShadowを提案する。
論文 参考訳(メタデータ) (2023-11-15T11:51:10Z) - All-in-SAM: from Weak Annotation to Pixel-wise Nuclei Segmentation with
Prompt-based Finetuning [16.016139980843835]
Segment Anything Model (SAM) は、ゼロショットセグメンテーションアプローチにおいて、最近提案されたプロンプトベースのセグメンテーションモデルである。
推論段階で手動のプロンプトを必要とせずに,AI開発ワークフロー全体を通じてSAMを利用するパイプラインを導入する。
実験の結果,1) 提案したパイプラインは, 公開モヌセグデータセット上での核分割タスクにおいて, 最先端(SOTA)手法を超越し, 2) SAMファインタニングのための弱いアノテーションと少ないアノテーションの利用により, 競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-07-01T10:12:46Z) - Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。
EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。
EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2023-03-20T06:01:53Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - Semantically Meaningful Class Prototype Learning for One-Shot Image
Semantic Segmentation [58.96902899546075]
ワンショットセマンティックイメージセグメンテーションは、1つの注釈付きイメージで新しいクラスのオブジェクト領域を分割することを目的としている。
最近の研究では、テスト時に予想される状況を模倣するために、エピソディクストレーニング戦略を採用している。
エピソードトレーニングにおいて,マルチクラスラベル情報を活用することを提案する。
ネットワークが各カテゴリに対してより意味のある機能を生成するように促すだろう。
論文 参考訳(メタデータ) (2021-02-22T12:07:35Z) - Weakly-Supervised Saliency Detection via Salient Object Subitizing [57.17613373230722]
我々は,クラス非依存であるため,弱い監督としてサリエンシー・サブイタライジングを導入する。
これにより、監視はサリエンシー検出の特性と整合することができます。
5つのベンチマークデータセットに対して広範な実験を行う。
論文 参考訳(メタデータ) (2021-01-04T12:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。