論文の概要: Open-Vocabulary Domain Generalization in Urban-Scene Segmentation
- arxiv url: http://arxiv.org/abs/2602.18853v1
- Date: Sat, 21 Feb 2026 14:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.356598
- Title: Open-Vocabulary Domain Generalization in Urban-Scene Segmentation
- Title(参考訳): 都市シーンセグメンテーションにおけるオープンボキャブラリ領域の一般化
- Authors: Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong,
- Abstract要約: セマンティックドメインのドメイン一般化(DG-SS)は、セグメント化モデルが目に見えない環境で堅牢に動作できるようにすることを目的としている。
VLM(Vision-Language Models)の最近の進歩は、モデルがより広い範囲の概念を認識できるようにすることにより、OV-SS(Open-Vocabulary Semantic)が進歩している。
しかし、これらのモデルはドメインシフトに敏感であり、目に見えない環境にデプロイされた場合、堅牢性を維持するのに苦労する。
状態空間駆動型テキスト画像相関改善機構であるS2-Corrを提案する。
- 参考スコア(独自算出の注目度): 83.15573353963235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain Generalization in Semantic Segmentation (DG-SS) aims to enable segmentation models to perform robustly in unseen environments. However, conventional DG-SS methods are restricted to a fixed set of known categories, limiting their applicability in open-world scenarios. Recent progress in Vision-Language Models (VLMs) has advanced Open-Vocabulary Semantic Segmentation (OV-SS) by enabling models to recognize a broader range of concepts. Yet, these models remain sensitive to domain shifts and struggle to maintain robustness when deployed in unseen environments, a challenge that is particularly severe in urban-driving scenarios. To bridge this gap, we introduce Open-Vocabulary Domain Generalization in Semantic Segmentation (OVDG-SS), a new setting that jointly addresses unseen domains and unseen categories. We introduce the first benchmark for OVDG-SS in autonomous driving, addressing a previously unexplored problem and covering both synthetic-to-real and real-to-real generalization across diverse unseen domains and unseen categories. In OVDG-SS, we observe that domain shifts often distort text-image correlations in pre-trained VLMs, which hinders the performance of OV-SS models. To tackle this challenge, we propose S2-Corr, a state-space-driven text-image correlation refinement mechanism that mitigates domain-induced distortions and produces more consistent text-image correlations under distribution changes. Extensive experiments on our constructed benchmark demonstrate that the proposed method achieves superior cross-domain performance and efficiency compared to existing OV-SS approaches.
- Abstract(参考訳): セマンティックセグメンテーションにおけるドメイン一般化(DG-SS)は、セグメンテーションモデルを目に見えない環境で堅牢に実行できるようにすることを目的としている。
しかし、従来のDG-SS法は既知のカテゴリの固定セットに制限されており、オープンワールドシナリオにおける適用性に制限がある。
VLM(Vision-Language Models)の最近の進歩は、モデルが幅広い概念を認識できるようにすることにより、OV-SS(Open-Vocabulary Semantic Segmentation)が進歩している。
しかし、これらのモデルはドメインシフトに敏感であり、目に見えない環境にデプロイする際の堅牢性維持に苦慮している。
このギャップを埋めるために, セマンティックセグメンテーション(OVDG-SS)におけるオープン語彙領域の一般化(Open-Vocabulary Domain Generalization in Semantic Segmentation)を導入する。
我々は、自動運転におけるOVDG-SSの最初のベンチマークを導入し、これまで探索されていなかった問題に対処し、様々な未知の領域と未知のカテゴリにまたがる合成-実-実-実-実の両方の一般化をカバーした。
OVDG-SSでは、事前訓練されたVLMにおいて、ドメインシフトがテキスト画像の相関を歪ませることがしばしばあり、OV-SSモデルの性能を阻害する。
この課題に対処するために、状態空間駆動型テキスト画像相関補正機構であるS2-Corrを提案する。
提案手法は,既存のOV-SS手法と比較して,クロスドメイン性能と効率性が優れていることを示す。
関連論文リスト
- Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation [8.068623902839368]
Open-Vocabulary semantic segmentation (OVSS)とDomain Generalization in semantic segmentation (DGSS)は微妙な相補性を強調している。
OV-DGSSは、見えない領域にまたがる堅牢性を保ちながら、見えないカテゴリのためのピクセルレベルのマスクを生成することを目的としている。
我々は,OVSSとDGSSの強みを初めて統一する,OV-DGSSのための新しい単一ステージフレームワークであるVireoを紹介する。
論文 参考訳(メタデータ) (2025-06-11T15:54:47Z) - Exploring Semantic Consistency and Style Diversity for Domain Generalized Semantic Segmentation [4.850207292777464]
ドメイン一般化セマンティック(Domain Generalized Semantic)は、未知のターゲットドメイン間のセマンティックセグメンテーションの一般化を強化することを目的としている。
本稿では,セマンティック一貫性予測とスタイル多様性の一般化のためのSCSDを紹介する。
SCSDは既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-16T18:20:06Z) - VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation [3.776249047528669]
本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。
提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。
結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
論文 参考訳(メタデータ) (2024-12-12T12:49:42Z) - Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。
既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。
マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文 参考訳(メタデータ) (2024-12-05T06:15:08Z) - PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization [24.413415998529754]
本稿では,Hybrid Domain Generalization (HDG) と,アルゴリズムのロバスト性を評価するために,様々な分割を構成する新しい指標である$H2$-CVを提案する。
提案手法は,複数のデータセット上での最先端アルゴリズムよりも優れており,特にデータ不足に直面する場合のロバスト性の向上に寄与する。
論文 参考訳(メタデータ) (2024-04-13T13:41:13Z) - Towards Full-scene Domain Generalization in Multi-agent Collaborative Bird's Eye View Segmentation for Connected and Autonomous Driving [49.03947018718156]
協調的な知覚の訓練と推論の段階で利用される統合されたドメイン一般化フレームワークを提案する。
また、システム内ドメインアライメント機構を導入し、コネクテッドおよび自律走行車間のドメインの差を減らし、潜在的に排除する。
論文 参考訳(メタデータ) (2023-11-28T12:52:49Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。