Fugu-MT 論文翻訳(概要): Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

論文の概要: Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

arxiv url: http://arxiv.org/abs/2506.19300v1
Date: Tue, 24 Jun 2025 04:16:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.489158
Title: Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models
Title（参考訳）: カスケード視覚言語モデルを用いたオープンボキャブラリカモフラージュオブジェクトセグメンテーション
Authors: Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng,
Abstract要約: Open-Vocabulary Camouflaged Objectは、任意のカテゴリからカモフラージュされたオブジェクトを分類し分類しようとする。最近のアプローチでは一般的に2段階のパラダイムが採用されている。本稿では,OVCOSにおけるこれらの問題に対処する新しいVLM誘導型ケースドフレームワークを提案する。
参考スコア（独自算出の注目度）: 35.947354809849166
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-Vocabulary Camouflaged Object Segmentation (OVCOS) seeks to segment and classify camouflaged objects from arbitrary categories, presenting unique challenges due to visual ambiguity and unseen categories.Recent approaches typically adopt a two-stage paradigm: first segmenting objects, then classifying the segmented regions using Vision Language Models (VLMs).However, these methods (1) suffer from a domain gap caused by the mismatch between VLMs' full-image training and cropped-region inference, and (2) depend on generic segmentation models optimized for well-delineated objects, making them less effective for camouflaged objects.Without explicit guidance, generic segmentation models often overlook subtle boundaries, leading to imprecise segmentation.In this paper,we introduce a novel VLM-guided cascaded framework to address these issues in OVCOS.For segmentation, we leverage the Segment Anything Model (SAM), guided by the VLM.Our framework uses VLM-derived features as explicit prompts to SAM, effectively directing attention to camouflaged regions and significantly improving localization accuracy.For classification, we avoid the domain gap introduced by hard cropping.Instead, we treat the segmentation output as a soft spatial prior via the alpha channel, which retains the full image context while providing precise spatial guidance, leading to more accurate and context-aware classification of camouflaged objects.The same VLM is shared across both segmentation and classification to ensure efficiency and semantic consistency.Extensive experiments on both OVCOS and conventional camouflaged object segmentation benchmarks demonstrate the clear superiority of our method, highlighting the effectiveness of leveraging rich VLM semantics for both segmentation and classification of camouflaged objects.
Abstract（参考訳）: Open-Vocabulary Camouflaged Object Segmentation (OVCOS)は、視覚的曖昧さと見えないカテゴリによるユニークな課題を提示し、任意のカテゴリからカモフラージュされたオブジェクトを分類し分類することを目指している。これらの手法は,(1) VLMのフルイメージトレーニングとトリプドリージョン推論のミスマッチによる領域ギャップに悩まされ,(2) 十分に記述されたオブジェクトに最適化された汎用セグメンテーションモデルに依存し,カモフラージュオブジェクトに対して効果が低いこと,(2) 明示的なガイダンスを伴わず,しばしば微妙な境界を見落とし,不正確なセグメンテーションにつながるようなジェネリックセグメンテーションモデルを導入する。この記事では,これらの問題に対処する新しいVLM誘導カスケードフレームワークを紹介する。

関連論文リスト

LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文参考訳（メタデータ） (2025-06-10T16:25:15Z)
Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2025-01-27T20:02:12Z)
DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。 DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文参考訳（メタデータ） (2024-09-24T06:51:49Z)
Pixel-Level Domain Adaptation: A New Perspective for Enhancing Weakly Supervised Semantic Segmentation [13.948425538725138]
画素単位の領域不変性を学習する際のモデルとして,Pixel-Level Domain Adaptation (PLDA)法を提案する。我々は,幅広い環境下でのアプローチの有効性を実験的に実証した。
論文参考訳（メタデータ） (2024-08-04T14:14:54Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-13T11:23:55Z)
Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation [33.336549577936196]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。 SemPLeSは、オブジェクトリージョンとクラスラベルのセマンティックアライメントを改善することができるため、セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。
論文参考訳（メタデータ） (2024-01-22T09:41:05Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文参考訳（メタデータ） (2020-07-03T21:53:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。