論文の概要: Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2506.09881v1
- Date: Wed, 11 Jun 2025 15:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.108087
- Title: Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation
- Title(参考訳): Open-Vocabulary Domain-Generalized Semantic Segmentationにおける深さと言語の利用
- Authors: Siyu Chen, Ting Han, Chengzheng Fu, Changshe Zhang, Chaolei Wang, Jinhe Su, Guorong Cai, Meiliu Wu,
- Abstract要約: Open-Vocabulary semantic segmentation (OVSS)とDomain Generalization in semantic segmentation (DGSS)は微妙な相補性を強調している。
OV-DGSSは、見えない領域にまたがる堅牢性を保ちながら、見えないカテゴリのためのピクセルレベルのマスクを生成することを目的としている。
我々は,OVSSとDGSSの強みを初めて統一する,OV-DGSSのための新しい単一ステージフレームワークであるVireoを紹介する。
- 参考スコア(独自算出の注目度): 8.068623902839368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary semantic segmentation (OVSS) and domain generalization in semantic segmentation (DGSS) highlight a subtle complementarity that motivates Open-Vocabulary Domain-Generalized Semantic Segmentation (OV-DGSS). OV-DGSS aims to generate pixel-level masks for unseen categories while maintaining robustness across unseen domains, a critical capability for real-world scenarios such as autonomous driving in adverse conditions. We introduce Vireo, a novel single-stage framework for OV-DGSS that unifies the strengths of OVSS and DGSS for the first time. Vireo builds upon the frozen Visual Foundation Models (VFMs) and incorporates scene geometry via Depth VFMs to extract domain-invariant structural features. To bridge the gap between visual and textual modalities under domain shift, we propose three key components: (1) GeoText Prompts, which align geometric features with language cues and progressively refine VFM encoder representations; (2) Coarse Mask Prior Embedding (CMPE) for enhancing gradient flow for faster convergence and stronger textual influence; and (3) the Domain-Open-Vocabulary Vector Embedding Head (DOV-VEH), which fuses refined structural and semantic features for robust prediction. Comprehensive evaluation on these components demonstrates the effectiveness of our designs. Our proposed Vireo achieves the state-of-the-art performance and surpasses existing methods by a large margin in both domain generalization and open-vocabulary recognition, offering a unified and scalable solution for robust visual understanding in diverse and dynamic environments. Code is available at https://github.com/anonymouse-9c53tp182bvz/Vireo.
- Abstract(参考訳): Open-Vocabulary semantic segmentation (OVSS)とDomain Generalization in semantic segmentation (DGSS)は、Open-Vocabulary Domain-Generalized Semantic Segmentation (OV-DGSS)を動機付ける微妙な相補性を示す。
OV-DGSSは、目に見えない領域にまたがる堅牢性を維持しつつ、見えないカテゴリのためのピクセルレベルのマスクを生成することを目的としている。
我々は,OVSSとDGSSの強みを初めて統一する,OV-DGSSのための新しい単一ステージフレームワークであるVireoを紹介する。
Vireoは凍結したVisual Foundation Models (VFM)の上に構築され、Depth VFMを通じてシーン幾何学を組み込んでドメイン不変の構造的特徴を抽出する。
ドメインシフト下での視覚的モダリティとテキスト的モダリティのギャップを埋めるため,(1)幾何学的特徴を言語キューに整合させ,VFMエンコーダ表現を徐々に洗練させるGeoText Prompts,(2)より高速な収束と強いテキスト影響のために勾配流を強化する粗いマスクプリエンベディング(CMPE),(3)堅牢な予測のために洗練された構造的特徴と意味的特徴を融合させるDoV-VEH(Domain-Open-Vocabulary Vector Embedding Head)という3つの重要なコンポーネントを提案する。
これらの構成要素の総合的な評価は, 設計の有効性を示すものである。
提案したVireoは、最先端の性能を実現し、ドメインの一般化とオープン語彙認識の両面で、既存の手法をはるかに上回り、多様な動的環境における堅牢な視覚的理解のための統一的でスケーラブルなソリューションを提供する。
コードはhttps://github.com/anonymouse-9c53tp182bvz/Vireoで公開されている。
関連論文リスト
- FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。
一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。
対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。
細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文 参考訳(メタデータ) (2025-01-01T15:47:04Z) - Exploring Semantic Consistency and Style Diversity for Domain Generalized Semantic Segmentation [4.850207292777464]
ドメイン一般化セマンティック(Domain Generalized Semantic)は、未知のターゲットドメイン間のセマンティックセグメンテーションの一般化を強化することを目的としている。
本稿では,セマンティック一貫性予測とスタイル多様性の一般化のためのSCSDを紹介する。
SCSDは既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-16T18:20:06Z) - VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation [3.776249047528669]
本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。
提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。
結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
論文 参考訳(メタデータ) (2024-12-12T12:49:42Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Decomposition-based Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation [30.606689882397223]
非教師なし領域適応(UDA)技術は、地球科学のセマンティックセグメンテーションに不可欠である。
高レベルの特徴空間におけるドメインアライメントに焦点を当てた既存のUDA手法の多くは、局所的な空間的詳細とグローバルな文脈的意味論を同時に維持するのに苦労している。
ドメイン不変表現学習を導くための新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:13:49Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing [8.830873674673828]
既存の方法は、様々な訓練領域からドメイン不変の特徴を抽出することを目的としている。
抽出された特徴は、必然的に残差スタイルの特徴バイアスを含んでおり、その結果、一般化性能が劣る。
本稿では,テキスト情報をドメイン間アライメントに有効活用するテキストガイド型ドメイン一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:13:46Z) - I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic
Segmentation [55.633859439375044]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は、重いアノテーション作業から人々を解放する有望なタスクである。
この問題に対処する主要なアイデアは、画像レベルと特徴レベルの両方を共同で実行することである。
本稿では,画像レベルと特徴レベルを統一したセマンティックセグメンテーションのための新しいUDAパイプラインを提案する。
論文 参考訳(メタデータ) (2023-01-03T15:19:48Z) - Affinity Space Adaptation for Semantic Segmentation Across Domains [57.31113934195595]
本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。
ソースドメインとターゲットドメインが不変なセマンティック構造を持つという事実に触発され、ドメイン間におけるそのような不変性を活用することを提案する。
親和性空間適応戦略として,親和性空間の洗浄と親和性空間アライメントという2つの方法を開発した。
論文 参考訳(メタデータ) (2020-09-26T10:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。