論文の概要: VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation
- arxiv url: http://arxiv.org/abs/2412.09240v1
- Date: Thu, 12 Dec 2024 12:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:33:58.779180
- Title: VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation
- Title(参考訳): VLMs meet UDA: Unsupervised Domain Adaptation を用いた開語彙セグメンテーションの転送性向上
- Authors: Roberto Alcover-Couso, Marcos Escudero-Viñolo, Juan C. SanMiguel, Jesus Bescos,
- Abstract要約: 本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。
提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。
結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
- 参考スコア(独自算出の注目度): 3.776249047528669
- License:
- Abstract: Segmentation models are typically constrained by the categories defined during training. To address this, researchers have explored two independent approaches: adapting Vision-Language Models (VLMs) and leveraging synthetic data. However, VLMs often struggle with granularity, failing to disentangle fine-grained concepts, while synthetic data-based methods remain limited by the scope of available datasets. This paper proposes enhancing segmentation accuracy across diverse domains by integrating Vision-Language reasoning with key strategies for Unsupervised Domain Adaptation (UDA). First, we improve the fine-grained segmentation capabilities of VLMs through multi-scale contextual data, robust text embeddings with prompt augmentation, and layer-wise fine-tuning in our proposed Foundational-Retaining Open Vocabulary Semantic Segmentation (FROVSS) framework. Next, we incorporate these enhancements into a UDA framework by employing distillation to stabilize training and cross-domain mixed sampling to boost adaptability without compromising generalization. The resulting UDA-FROVSS framework is the first UDA approach to effectively adapt across domains without requiring shared categories.
- Abstract(参考訳): セグメンテーションモデルは通常、トレーニング中に定義されたカテゴリによって制約される。
これを解決するために、研究者はVLM(Vision-Language Models)の適応と合成データの活用という、2つの独立したアプローチを探索した。
しかしながら、VLMは粒度に苦しむことが多く、微細な概念を解き放つことができず、合成データベースの手法は利用可能なデータセットの範囲によって制限される。
本稿では,ビジョンランゲージ推論とUnsupervised Domain Adaptation (UDA) のキー戦略を統合することにより,多様なドメイン間のセグメンテーション精度を向上させることを提案する。
まず、VLMの細粒度セグメンテーション機能を改善するために、マルチスケールのコンテキストデータ、迅速な拡張を伴う堅牢なテキスト埋め込み、そして提案したFROVSSフレームワークの階層的微調整を行う。
次に, これらの拡張を, 蒸留を用いてトレーニングを安定化し, クロスドメイン混合サンプリングにより適応性を向上し, 一般化を損なうことなく, UDAフレームワークに組み込む。
結果として生じるUDA-FROVSSフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
関連論文リスト
- Open-Set Domain Adaptation with Visual-Language Foundation Models [51.49854335102149]
非教師なしドメイン適応(UDA)は、ソースドメインからラベルのないデータを持つターゲットドメインへの知識の転送に非常に効果的であることが証明されている。
オープンセットドメイン適応(ODA)は、トレーニングフェーズ中にこれらのクラスを識別する潜在的なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-07-30T11:38:46Z) - IDA: Informed Domain Adaptive Semantic Segmentation [51.12107564372869]
クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるDomain Informed Adaptation (IDA) モデルを提案する。
IDAモデルでは、クラスレベルの性能を期待信頼スコア(ECS)によって追跡し、動的スケジュールを用いて異なる領域のデータに対する混合比を決定する。
提案手法は,GTA-Vの都市景観への適応において1.1 mIoU,SynTHIAの都市への適応において0.9 mIoUのマージンで,最先端のUDA-SS法よりも優れる。
論文 参考訳(メタデータ) (2023-03-05T18:16:34Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Semi-supervised Domain Adaptation for Semantic Segmentation [3.946367634483361]
セマンティックセグメンテーションにおけるクロスドメインとイントラドメインのギャップに対処する2段階の半教師付き二重ドメイン適応(SSDDA)手法を提案する。
提案手法は,2つの共通合成-実合成セマンティックセグメンテーションベンチマークにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-20T16:13:00Z) - Unsupervised Domain Adaptation for Semantic Segmentation via Low-level
Edge Information Transfer [27.64947077788111]
セマンティックセグメンテーションのための教師なしドメイン適応は、合成データに基づいて訓練されたモデルを実際の画像に適応させることを目的としている。
従来の特徴レベルの対数学習手法は、高レベルの意味的特徴に適応するモデルのみを考慮していた。
本稿では,ドメイン間ギャップが小さい低レベルエッジ情報を明示的に利用して意味情報の伝達をガイドする試みについて紹介する。
論文 参考訳(メタデータ) (2021-09-18T11:51:31Z) - Source-Free Open Compound Domain Adaptation in Semantic Segmentation [99.82890571842603]
SF-OCDAでは、ターゲットモデルを学習するために、ソース事前訓練されたモデルとターゲットデータのみが利用可能である。
そこで我々は,Cross-Patch Style Swap (CPSS)を提案する。
提案手法は,C-Drivingデータセット上で最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-06-07T08:38:41Z) - Cluster, Split, Fuse, and Update: Meta-Learning for Open Compound Domain
Adaptive Semantic Segmentation [102.42638795864178]
セマンティックセグメンテーションのための原則的メタラーニングに基づくOCDAアプローチを提案する。
対象ドメインを複数のサブターゲットドメインに,教師なしの方法で抽出した画像スタイルでクラスタリングする。
その後、メタラーニングがデプロイされ、スタイルコードに条件付きでサブターゲットドメイン固有の予測を融合するように学習される。
モデルに依存しないメタラーニング(MAML)アルゴリズムにより,モデルをオンライン更新することを学び,一般化をさらに改善する。
論文 参考訳(メタデータ) (2020-12-15T13:21:54Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal
and Clustered Embeddings [25.137859989323537]
本稿では,機能クラスタリング手法に基づく効果的なUnsupervised Domain Adaptation(UDA)戦略を提案する。
識別的クラスタリング性能を高めるために,2つの新しい学習目標を導入する。
論文 参考訳(メタデータ) (2020-11-25T10:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。