論文の概要: Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt
for Segmenting Camouflaged Objects
- arxiv url: http://arxiv.org/abs/2312.07374v1
- Date: Tue, 12 Dec 2023 15:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:24:29.750589
- Title: Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt
for Segmenting Camouflaged Objects
- Title(参考訳): SAMにおけるRelax画像特異的プロンプト要件:カモフラージュオブジェクトの分割のための単一のジェネリックプロンプト
- Authors: Jian Hu, Jiayi Lin, Weitong Cai, Shaogang Gong
- Abstract要約: 我々はGeneralizable SAM(GenSAM)と呼ばれるテスト時間ごとの適応機構を導入し、視覚的プロンプトを自動生成し最適化する。
3つのベンチマーク実験により、GenSAMは点監督アプローチより優れていることが示された。
- 参考スコア(独自算出の注目度): 32.14438610147615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflaged object detection (COD) approaches heavily rely on pixel-level
annotated datasets. Weakly-supervised COD (WSCOD) approaches use sparse
annotations like scribbles or points to reduce annotation effort, but this can
lead to decreased accuracy. The Segment Anything Model (SAM) shows remarkable
segmentation ability with sparse prompts like points. However, manual prompt is
not always feasible, as it may not be accessible in real-world application.
Additionally, it only provides localization information instead of semantic
one, which can intrinsically cause ambiguity in interpreting the targets. In
this work, we aim to eliminate the need for manual prompt. The key idea is to
employ Cross-modal Chains of Thought Prompting (CCTP) to reason visual prompts
using the semantic information given by a generic text prompt.To that end, we
introduce a test-time adaptation per-instance mechanism called Generalizable
SAM (GenSAM) to automatically enerate and optimize visual prompts the generic
task prompt for WSCOD. In particular, CCTP maps a single generic text prompt
onto image-specific consensus foreground and background heatmaps using
vision-language models, acquiring reliable visual prompts. Moreover, to
test-time adapt the visual prompts, we further propose Progressive Mask
Generation (PMG) to iteratively reweight the input image, guiding the model to
focus on the targets in a coarse-to-fine manner. Crucially, all network
parameters are fixed, avoiding the need for additional training. Experiments
demonstrate the superiority of GenSAM. Experiments on three benchmarks
demonstrate that GenSAM outperforms point supervision approaches and achieves
comparable results to scribble supervision ones, solely relying on general task
descriptions as prompts. our codes is in: https://lwpyh.github.io/GenSAM/.
- Abstract(参考訳): camouflaged object detection (cod)アプローチはピクセルレベルの注釈付きデータセットに大きく依存している。
弱教師付きCOD (WSCOD) アプローチでは、スクリブルやポイントのようなスパースアノテーションを使用してアノテーションの労力を削減するが、精度が低下する可能性がある。
Segment Anything Model (SAM)は、ポイントのようなスパースプロンプトで顕著なセグメンテーション能力を示す。
しかし、手動プロンプトは現実世界のアプリケーションではアクセスできない可能性があるため、必ずしも実現可能であるとは限らない。
さらに、セマンティックな情報の代わりにローカライズ情報のみを提供するので、ターゲットを解釈する際の曖昧さを本質的に引き起こすことができる。
この作業では,手作業によるプロンプトの不要化を目標としている。
鍵となる考え方は、汎用テキストプロンプトによって与えられる意味情報を用いて視覚的プロンプトを推論するために、CCTP(Cross-modal Chains of Thought Prompting)を採用することである。
特に、CCTPは視覚言語モデルを用いて画像固有のコンセンサスフォアグラウンドと背景ヒートマップに単一のジェネリックテキストプロンプトをマッピングし、信頼できる視覚的プロンプトを取得する。
さらに,視覚プロンプトをテスト時間に適応させるために,入力画像の繰り返し重み付けを行うプログレッシブマスク生成(pmg)を提案する。
重要なのは、すべてのネットワークパラメータが修正され、追加のトレーニングが不要になることだ。
GenSAMの優位性を示す実験。
3つのベンチマークによる実験は、gensamがポイント監督アプローチよりも優れており、プロンプトとして一般的なタスク記述のみに依存する、スクリブル監督アプローチと同等の結果を達成していることを示している。
私たちのコードは以下のとおりです。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - PASS:Test-Time Prompting to Adapt Styles and Semantic Shapes in Medical Image Segmentation [25.419843931497965]
テストタイム適応(TTA)は、医用画像のテスト時にドメインシフトを処理するための有望なパラダイムとして登場した。
本稿では2種類のプロンプトを共同で学習するPASS(Prompting to Adapt Styles and Semantic shapes)を提案する。
複数の医用画像セグメンテーションデータセットにおける最先端手法よりもPASSの方が優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-02T14:11:26Z) - Automating MedSAM by Learning Prompts with Weak Few-Shot Supervision [10.609371657347806]
本研究は,入力プロンプトの条件付けを,画像埋め込みから直接プロンプト埋め込みを学習する軽量モジュールに置き換えることを提案する。
本手法は,医療用画像に微調整したSAMのバージョンであるMedSAMを用いて検証した。
論文 参考訳(メタデータ) (2024-09-30T13:53:01Z) - PointSAM: Pointly-Supervised Segment Anything Model for Remote Sensing Images [16.662173255725463]
本稿では,PointSAM という新しいセグメンテーションモデルを提案する。
我々は, WHU, HRSID, NWPU VHR-10を含むRSIデータセットの実験を行った。
その結果,本手法はSAM,SAM2,その他の比較法で直接試験よりも優れていた。
論文 参考訳(メタデータ) (2024-09-20T11:02:18Z) - When 3D Partial Points Meets SAM: Tooth Point Cloud Segmentation with Sparse Labels [39.54551717450374]
歯点クラウドセグメンテーションは多くの矯正用アプリケーションにおいて基本的なタスクである。
近年, 3次元セグメンテーションに弱いラベルを用い, 有望な結果を得る方法が提案されている。
本稿では,SAMTooth という名前のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-03T08:14:56Z) - Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation [74.04806143723597]
本稿では,プロペラジェネレータとマスクジェネレータを備えたProMaC(Prompt-Mask Cycle Generation framework)を提案する。
プロンプトジェネレータは、最初は、テストイメージ上で拡張された文脈知識を抽出するための幻覚を探究する、複数スケールの思考プロンプトの連鎖を使用する。
生成されたマスクは、プロンプトジェネレータを反復的にタスク関連の画像領域に集中させ、無関係な幻覚を減らし、より良いプロンプトとマスクを共同で生成する。
論文 参考訳(メタデータ) (2024-08-27T17:06:22Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Visual In-Context Prompting [100.93587329049848]
本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。
エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。
広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
論文 参考訳(メタデータ) (2023-11-22T18:59:48Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。