Fugu-MT 論文翻訳(概要): Stepwise Decomposition and Dual-stream Focus: A Novel Approach for Training-free Camouflaged Object Segmentation

論文の概要: Stepwise Decomposition and Dual-stream Focus: A Novel Approach for Training-free Camouflaged Object Segmentation

arxiv url: http://arxiv.org/abs/2506.06818v1
Date: Sat, 07 Jun 2025 14:50:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.495648
Title: Stepwise Decomposition and Dual-stream Focus: A Novel Approach for Training-free Camouflaged Object Segmentation
Title（参考訳）: ステップワイズ分解とデュアルストリームフォーカス:無訓練カモフラージュ物体分割のための新しいアプローチ
Authors: Chao Yin, Hao Li, Kequan Yang, Jide Li, Pinpin Zhu, Xiaoqiang Li,
Abstract要約: 我々は、textbfMultimodal textbfStepwise textbfDecomposition Chain of Thought (MSD-CoT) を介して textbfRegion-constrained textbfDual-stream textbfVisual textbfPrompting (RDVP) を相乗化する新しいトレーニングフリーなテスト時間適応フレームワークを提案する。 RDVPは、前景と背景点の視覚的プロンプトを視覚的および独立的にサンプリングする空間的制約を注入し、意味的相違を効果的に緩和する
参考スコア（独自算出の注目度）: 9.862714096455175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While promptable segmentation (\textit{e.g.}, SAM) has shown promise for various segmentation tasks, it still requires manual visual prompts for each object to be segmented. In contrast, task-generic promptable segmentation aims to reduce the need for such detailed prompts by employing only a task-generic prompt to guide segmentation across all test samples. However, when applied to Camouflaged Object Segmentation (COS), current methods still face two critical issues: 1) \textit{\textbf{semantic ambiguity in getting instance-specific text prompts}}, which arises from insufficient discriminative cues in holistic captions, leading to foreground-background confusion; 2) \textit{\textbf{semantic discrepancy combined with spatial separation in getting instance-specific visual prompts}}, which results from global background sampling far from object boundaries with low feature correlation, causing SAM to segment irrelevant regions. To address the issues above, we propose \textbf{RDVP-MSD}, a novel training-free test-time adaptation framework that synergizes \textbf{R}egion-constrained \textbf{D}ual-stream \textbf{V}isual \textbf{P}rompting (RDVP) via \textbf{M}ultimodal \textbf{S}tepwise \textbf{D}ecomposition Chain of Thought (MSD-CoT). MSD-CoT progressively disentangles image captions to eliminate semantic ambiguity, while RDVP injects spatial constraints into visual prompting and independently samples visual prompts for foreground and background points, effectively mitigating semantic discrepancy and spatial separation. Without requiring any training or supervision, RDVP-MSD achieves a state-of-the-art segmentation result on multiple COS benchmarks and delivers a faster inference speed than previous methods, demonstrating significantly improved accuracy and efficiency. The codes will be available at \href{https://github.com/ycyinchao/RDVP-MSD}{https://github.com/ycyinchao/RDVP-MSD}
Abstract（参考訳）: プロンプト可能なセグメンテーション(\textit{e g }, SAM)は様々なセグメンテーションタスクの約束を示しているが、各オブジェクトをセグメンテーションするためには手動のビジュアルプロンプトが必要である。対照的に、タスクジェネリックなプロンプト可能なセグメンテーションは、すべてのテストサンプルをまたいだセグメンテーションをガイドするためにタスクジェネリックなプロンプトのみを使用することで、このような詳細なプロンプトの必要性を減らすことを目的としている。しかし、Camouflaged Object Segmentation (COS)に適用した場合、現在のメソッドはまだ2つの重大な問題に直面している。 1) インスタンス固有のテキストプロンプトの取得における \textit{\textbf{semantic ambiguity は、全体的キャプションにおける差別的手がかりの不足から生じるもので、前景・背景の混乱につながる。 2) \textit{\textbf{semantic discrepancy with a spatial separation in get instance-specific visual prompts}}, which result from global background sample from from object boundary with low feature correlation, caused SAM to segment any relevant region。上記の問題に対処するために、新しいトレーニングフリーなテスト時間適応フレームワークである \textbf{RDVP-MSD} を提案する。これは、ThoughtのChain of Thought (MSD-CoT) を用いて、新しいトレーニングフリーなテスト時間適応フレームワークである \textbf{R}egion-constrained \textbf{D}ual-stream \textbf{V}isual \textbf{P}rompting (RDVP) を合成する。 MSD-CoTは画像キャプションを徐々に切り離して意味的曖昧さを排除し、RDVPは視覚的プロンプトに空間的制約を注入し、前景と背景の視覚的プロンプトを独立にサンプリングし、意味的不一致と空間的分離を効果的に緩和する。 RDVP-MSDはトレーニングや監督を必要とせず、複数のCOSベンチマークで最先端のセグメンテーション結果を達成し、従来の方法よりも高速な推論速度を実現し、精度と効率を大幅に向上させる。コードは \href{https://github.com/ycyinchao/RDVP-MSD}{https://github.com/ycyinchao/RDVP-MSD} で入手できる。

関連論文リスト

LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation [12.67400143793047]
我々は,Segment Anything Model(PSLG-SAM)を導くtextitprompt生成セマンティックローカライゼーションというフレームワークを提案する。 PSLG-SAMは、参照リモートセンシングイメージ(RRSIS)タスクを粗いローカライゼーションと細かなセグメンテーションの2つのステージに分解する。特に、第2段階は、RRSISタスクのアノテーションデータ負担を著しく低減する。
論文参考訳（メタデータ） (2025-06-12T09:04:07Z)
LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。 ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文参考訳（メタデータ） (2024-10-17T07:47:41Z)
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。 InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文参考訳（メタデータ） (2024-10-15T10:20:31Z)
DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文参考訳（メタデータ） (2024-08-28T14:14:33Z)
Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文参考訳（メタデータ） (2024-05-15T00:17:48Z)
Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects [32.14438610147615]
我々はGeneralizable SAM(GenSAM)と呼ばれるテスト時間ごとの適応機構を導入し、視覚的プロンプトを自動生成し最適化する。 3つのベンチマーク実験により、GenSAMは点監督アプローチより優れていることが示された。
論文参考訳（メタデータ） (2023-12-12T15:43:36Z)
Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。 TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文参考訳（メタデータ） (2023-10-27T10:52:50Z)
Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。 EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。 EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文参考訳（メタデータ） (2023-03-20T06:01:53Z)
A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文参考訳（メタデータ） (2023-03-14T17:58:34Z)
Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文参考訳（メタデータ） (2022-11-20T16:19:47Z)
SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。 TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。 1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文参考訳（メタデータ） (2022-03-03T06:52:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。