論文の概要: Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models
- arxiv url: http://arxiv.org/abs/2506.19300v1
- Date: Tue, 24 Jun 2025 04:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.489158
- Title: Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models
- Title(参考訳): カスケード視覚言語モデルを用いたオープンボキャブラリカモフラージュオブジェクトセグメンテーション
- Authors: Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng,
- Abstract要約: Open-Vocabulary Camouflaged Objectは、任意のカテゴリからカモフラージュされたオブジェクトを分類し分類しようとする。
最近のアプローチでは一般的に2段階のパラダイムが採用されている。
本稿では,OVCOSにおけるこれらの問題に対処する新しいVLM誘導型ケースドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.947354809849166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-Vocabulary Camouflaged Object Segmentation (OVCOS) seeks to segment and classify camouflaged objects from arbitrary categories, presenting unique challenges due to visual ambiguity and unseen categories.Recent approaches typically adopt a two-stage paradigm: first segmenting objects, then classifying the segmented regions using Vision Language Models (VLMs).However, these methods (1) suffer from a domain gap caused by the mismatch between VLMs' full-image training and cropped-region inference, and (2) depend on generic segmentation models optimized for well-delineated objects, making them less effective for camouflaged objects.Without explicit guidance, generic segmentation models often overlook subtle boundaries, leading to imprecise segmentation.In this paper,we introduce a novel VLM-guided cascaded framework to address these issues in OVCOS.For segmentation, we leverage the Segment Anything Model (SAM), guided by the VLM.Our framework uses VLM-derived features as explicit prompts to SAM, effectively directing attention to camouflaged regions and significantly improving localization accuracy.For classification, we avoid the domain gap introduced by hard cropping.Instead, we treat the segmentation output as a soft spatial prior via the alpha channel, which retains the full image context while providing precise spatial guidance, leading to more accurate and context-aware classification of camouflaged objects.The same VLM is shared across both segmentation and classification to ensure efficiency and semantic consistency.Extensive experiments on both OVCOS and conventional camouflaged object segmentation benchmarks demonstrate the clear superiority of our method, highlighting the effectiveness of leveraging rich VLM semantics for both segmentation and classification of camouflaged objects.
- Abstract(参考訳): Open-Vocabulary Camouflaged Object Segmentation (OVCOS)は、視覚的曖昧さと見えないカテゴリによるユニークな課題を提示し、任意のカテゴリからカモフラージュされたオブジェクトを分類し分類することを目指している。
これらの手法は,(1) VLMのフルイメージトレーニングとトリプドリージョン推論のミスマッチによる領域ギャップに悩まされ,(2) 十分に記述されたオブジェクトに最適化された汎用セグメンテーションモデルに依存し,カモフラージュオブジェクトに対して効果が低いこと,(2) 明示的なガイダンスを伴わず,しばしば微妙な境界を見落とし,不正確なセグメンテーションにつながるようなジェネリックセグメンテーションモデルを導入する。この記事では,これらの問題に対処する新しいVLM誘導カスケードフレームワークを紹介する。
関連論文リスト
- Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。
このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。
本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文 参考訳(メタデータ) (2025-06-10T16:25:15Z) - Pixel-Level Domain Adaptation: A New Perspective for Enhancing Weakly Supervised Semantic Segmentation [13.948425538725138]
画素単位の領域不変性を学習する際のモデルとして,Pixel-Level Domain Adaptation (PLDA)法を提案する。
我々は,幅広い環境下でのアプローチの有効性を実験的に実証した。
論文 参考訳(メタデータ) (2024-08-04T14:14:54Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation [33.336549577936196]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSは、オブジェクトリージョンとクラスラベルのセマンティックアライメントを改善することができるため、セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。
論文 参考訳(メタデータ) (2024-01-22T09:41:05Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。