Fugu-MT 論文翻訳(概要): Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects

論文の概要: Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects

arxiv url: http://arxiv.org/abs/2312.07374v1
Date: Tue, 12 Dec 2023 15:43:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 15:24:29.750589
Title: Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects
Title（参考訳）: SAMにおけるRelax画像特異的プロンプト要件:カモフラージュオブジェクトの分割のための単一のジェネリックプロンプト
Authors: Jian Hu, Jiayi Lin, Weitong Cai, Shaogang Gong
Abstract要約: 我々はGeneralizable SAM(GenSAM)と呼ばれるテスト時間ごとの適応機構を導入し、視覚的プロンプトを自動生成し最適化する。 3つのベンチマーク実験により、GenSAMは点監督アプローチより優れていることが示された。
参考スコア（独自算出の注目度）: 32.14438610147615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Camouflaged object detection (COD) approaches heavily rely on pixel-level annotated datasets. Weakly-supervised COD (WSCOD) approaches use sparse annotations like scribbles or points to reduce annotation effort, but this can lead to decreased accuracy. The Segment Anything Model (SAM) shows remarkable segmentation ability with sparse prompts like points. However, manual prompt is not always feasible, as it may not be accessible in real-world application. Additionally, it only provides localization information instead of semantic one, which can intrinsically cause ambiguity in interpreting the targets. In this work, we aim to eliminate the need for manual prompt. The key idea is to employ Cross-modal Chains of Thought Prompting (CCTP) to reason visual prompts using the semantic information given by a generic text prompt.To that end, we introduce a test-time adaptation per-instance mechanism called Generalizable SAM (GenSAM) to automatically enerate and optimize visual prompts the generic task prompt for WSCOD. In particular, CCTP maps a single generic text prompt onto image-specific consensus foreground and background heatmaps using vision-language models, acquiring reliable visual prompts. Moreover, to test-time adapt the visual prompts, we further propose Progressive Mask Generation (PMG) to iteratively reweight the input image, guiding the model to focus on the targets in a coarse-to-fine manner. Crucially, all network parameters are fixed, avoiding the need for additional training. Experiments demonstrate the superiority of GenSAM. Experiments on three benchmarks demonstrate that GenSAM outperforms point supervision approaches and achieves comparable results to scribble supervision ones, solely relying on general task descriptions as prompts. our codes is in: https://lwpyh.github.io/GenSAM/.
Abstract（参考訳）: camouflaged object detection (cod)アプローチはピクセルレベルの注釈付きデータセットに大きく依存している。弱教師付きCOD (WSCOD) アプローチでは、スクリブルやポイントのようなスパースアノテーションを使用してアノテーションの労力を削減するが、精度が低下する可能性がある。 Segment Anything Model (SAM)は、ポイントのようなスパースプロンプトで顕著なセグメンテーション能力を示す。しかし、手動プロンプトは現実世界のアプリケーションではアクセスできない可能性があるため、必ずしも実現可能であるとは限らない。さらに、セマンティックな情報の代わりにローカライズ情報のみを提供するので、ターゲットを解釈する際の曖昧さを本質的に引き起こすことができる。この作業では,手作業によるプロンプトの不要化を目標としている。鍵となる考え方は、汎用テキストプロンプトによって与えられる意味情報を用いて視覚的プロンプトを推論するために、CCTP(Cross-modal Chains of Thought Prompting)を採用することである。特に、CCTPは視覚言語モデルを用いて画像固有のコンセンサスフォアグラウンドと背景ヒートマップに単一のジェネリックテキストプロンプトをマッピングし、信頼できる視覚的プロンプトを取得する。さらに,視覚プロンプトをテスト時間に適応させるために,入力画像の繰り返し重み付けを行うプログレッシブマスク生成(pmg)を提案する。重要なのは、すべてのネットワークパラメータが修正され、追加のトレーニングが不要になることだ。 GenSAMの優位性を示す実験。 3つのベンチマークによる実験は、gensamがポイント監督アプローチよりも優れており、プロンプトとして一般的なタスク記述のみに依存する、スクリブル監督アプローチと同等の結果を達成していることを示している。私たちのコードは以下のとおりです。

関連論文リスト

ViRefSAM: Visual Reference-Guided Segment Anything Model for Remote Sensing Segmentation [21.953205396218767]
ViRefSAMはSAMをガイドする新しいフレームワークで、いくつかの注釈付き参照イメージしか利用していない。 RS画像にまたがるクラス一貫性オブジェクトの自動セグメンテーションを可能にする。さまざまなデータセット間で、既存の数ショットセグメンテーションメソッドを一貫して上回る。
論文参考訳（メタデータ） (2025-07-03T04:06:04Z)
Stepwise Decomposition and Dual-stream Focus: A Novel Approach for Training-free Camouflaged Object Segmentation [9.862714096455175]
我々は、textbfMultimodal textbfStepwise textbfDecomposition Chain of Thought (MSD-CoT) を介して textbfRegion-constrained textbfDual-stream textbfVisual textbfPrompting (RDVP) を相乗化する新しいトレーニングフリーなテスト時間適応フレームワークを提案する。 RDVPは、前景と背景点の視覚的プロンプトを視覚的および独立的にサンプリングする空間的制約を注入し、意味的相違を効果的に緩和する
論文参考訳（メタデータ） (2025-06-07T14:50:26Z)
ConText: Driving In-context Learning for Text Removal and Segmentation [59.6299939669307]
本稿では,視覚的インコンテキスト学習パラダイムを光学的文字認識タスクに適用する最初の研究について述べる。画像除去・分離方式のタスクチェイン・コンポジトリを提案する。また、連鎖したプロンプトパターンを潜在クエリ表現に統合するコンテキスト認識アグリゲーションも導入する。
論文参考訳（メタデータ） (2025-06-04T10:06:32Z)
Pro2SAM: Mask Prompt to SAM with Grid Points for Weakly Supervised Object Localization [54.91271106816616]
本稿では,WSOLタスクのグリッドポイントを持つSAM(Pro2SAM)ネットワークに対して,革新的なマスクプロンプトを提案する。まず,グローバルトークン変換器(GTFormer)を設計し,フレキシブルマスクプロンプトとして粗粒のフォアグラウンドマップを生成する。第2に,フォアグラウンドマスクの確率を最大化するために,密度の高いプロンプトとしてグリッドポイントをSAMに配信する。
論文参考訳（メタデータ） (2025-05-08T02:44:53Z)
IMDPrompter: Adapting SAM to Image Manipulation Detection by Cross-View Automated Prompt Learning [33.15442780576408]
Segment Anything Model (SAM) は例外的な一般化とゼロショット機能を示した。我々はSAMに基づくIMDPrompterと呼ばれるクロスビュープロンプト学習パラダイムを開発した。 IMDPrompterは手動によるガイダンスに依存しなくなり、自動検出とローカライゼーションが可能になった。
論文参考訳（メタデータ） (2025-02-04T16:20:41Z)
SAM-Aware Graph Prompt Reasoning Network for Cross-Domain Few-Shot Segmentation [25.00605325290872]
本稿では,CD-FSS特徴表現学習のガイドとして,SAM対応グラフプロンプト推論ネットワーク(GPRN)を提案する。 GPRNはSAMによって生成されたマスクを高レベルの意味情報に富んだ視覚的なプロンプトに変換する。提案手法は, 新たな最先端結果を確立するものである。
論文参考訳（メタデータ） (2024-12-31T06:38:49Z)
Just a Few Glances: Open-Set Visual Perception with Image Prompt Paradigm [22.407887601771026]
Open-Set Object Detection (OSOD) と Open-Set Object (OSS) は研究者の関心を集めている。メインストリームのOSODとOSSメソッドは一般的にテキストをプロンプトとして利用し、優れたパフォーマンスを実現している。我々は,OSODとOSS,すなわち textbfImage Prompt Paradigm に新たなプロンプトパラダイムを提案する。このフレームワークでは、高品質な画像プロンプトが自動的に符号化され、選択され、融合され、単一のステージおよび非インタラクティブな推論が達成される。
論文参考訳（メタデータ） (2024-12-14T07:23:14Z)
Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-10-09T15:02:28Z)
PASS:Test-Time Prompting to Adapt Styles and Semantic Shapes in Medical Image Segmentation [25.419843931497965]
テストタイム適応(TTA)は、医用画像のテスト時にドメインシフトを処理するための有望なパラダイムとして登場した。本稿では2種類のプロンプトを共同で学習するPASS(Prompting to Adapt Styles and Semantic shapes)を提案する。複数の医用画像セグメンテーションデータセットにおける最先端手法よりもPASSの方が優れた性能を示す。
論文参考訳（メタデータ） (2024-10-02T14:11:26Z)
Automating MedSAM by Learning Prompts with Weak Few-Shot Supervision [10.609371657347806]
本研究は,入力プロンプトの条件付けを,画像埋め込みから直接プロンプト埋め込みを学習する軽量モジュールに置き換えることを提案する。本手法は,医療用画像に微調整したSAMのバージョンであるMedSAMを用いて検証した。
論文参考訳（メタデータ） (2024-09-30T13:53:01Z)
PointSAM: Pointly-Supervised Segment Anything Model for Remote Sensing Images [16.662173255725463]
本稿では,PointSAM という新しいセグメンテーションモデルを提案する。我々は, WHU, HRSID, NWPU VHR-10を含むRSIデータセットの実験を行った。その結果,本手法はSAM,SAM2,その他の比較法で直接試験よりも優れていた。
論文参考訳（メタデータ） (2024-09-20T11:02:18Z)
When 3D Partial Points Meets SAM: Tooth Point Cloud Segmentation with Sparse Labels [39.54551717450374]
歯点クラウドセグメンテーションは多くの矯正用アプリケーションにおいて基本的なタスクである。近年, 3次元セグメンテーションに弱いラベルを用い, 有望な結果を得る方法が提案されている。本稿では,SAMTooth という名前のフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-03T08:14:56Z)
Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation [74.04806143723597]
本稿では,プロペラジェネレータとマスクジェネレータを備えたProMaC(Prompt-Mask Cycle Generation framework)を提案する。プロンプトジェネレータは、最初は、テストイメージ上で拡張された文脈知識を抽出するための幻覚を探究する、複数スケールの思考プロンプトの連鎖を使用する。生成されたマスクは、プロンプトジェネレータを反復的にタスク関連の画像領域に集中させ、無関係な幻覚を減らし、より良いプロンプトとマスクを共同で生成する。
論文参考訳（メタデータ） (2024-08-27T17:06:22Z)
AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文参考訳（メタデータ） (2024-06-01T16:21:39Z)
Visual In-Context Prompting [100.93587329049848]
本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
論文参考訳（メタデータ） (2023-11-22T18:59:48Z)
Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文参考訳（メタデータ） (2022-12-05T16:24:29Z)
Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文参考訳（メタデータ） (2022-11-02T03:38:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。