論文の概要: SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2504.06389v1
- Date: Tue, 08 Apr 2025 19:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:34.635286
- Title: SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic Segmentation
- Title(参考訳): SemiDAViL:セマンティックセグメンテーションのためのビジョンランゲージ誘導を用いた半教師付きドメイン適応
- Authors: Hritam Basak, Zhaozheng Yin,
- Abstract要約: セマンティックセグメンテーションのための言語誘導半教師付きドメイン適応(SSDA)設定を提案する。
我々は、視覚言語モデル(VLM)に固有の意味一般化機能を活用して、相乗的枠組みを確立する。
提案手法は, 現代の SoTA (State-of-the-art) 手法に比較して, 大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 9.311853182451289
- License:
- Abstract: Domain Adaptation (DA) and Semi-supervised Learning (SSL) converge in Semi-supervised Domain Adaptation (SSDA), where the objective is to transfer knowledge from a source domain to a target domain using a combination of limited labeled target samples and abundant unlabeled target data. Although intuitive, a simple amalgamation of DA and SSL is suboptimal in semantic segmentation due to two major reasons: (1) previous methods, while able to learn good segmentation boundaries, are prone to confuse classes with similar visual appearance due to limited supervision; and (2) skewed and imbalanced training data distribution preferring source representation learning whereas impeding from exploring limited information about tailed classes. Language guidance can serve as a pivotal semantic bridge, facilitating robust class discrimination and mitigating visual ambiguities by leveraging the rich semantic relationships encoded in pre-trained language models to enhance feature representations across domains. Therefore, we propose the first language-guided SSDA setting for semantic segmentation in this work. Specifically, we harness the semantic generalization capabilities inherent in vision-language models (VLMs) to establish a synergistic framework within the SSDA paradigm. To address the inherent class-imbalance challenges in long-tailed distributions, we introduce class-balanced segmentation loss formulations that effectively regularize the learning process. Through extensive experimentation across diverse domain adaptation scenarios, our approach demonstrates substantial performance improvements over contemporary state-of-the-art (SoTA) methodologies. Code is available: \href{https://github.com/hritam-98/SemiDAViL}{GitHub}.
- Abstract(参考訳): ドメイン適応 (DA) と半教師付き学習 (SSL) は半教師付きドメイン適応 (SSDA) に収束する。
直感的ではあるが, DA と SSL の単純なアマルガメーションは, セマンティックセマンティックセマンティクスのセマンティクスに最適である。(1) セマンティクス境界を学習できる従来の手法は, 監督が限られているため, 類似した視覚的外観を持つクラスを混乱させる傾向にある。
言語指導は重要なセマンティックブリッジとして機能し、事前訓練された言語モデルに符号化されたリッチなセマンティックな関係を利用して、ドメイン間の特徴表現を強化することで、堅牢なクラス識別と視覚的あいまいさを緩和する。
そこで本研究では,セマンティックセグメンテーションのための最初の言語誘導型SSDA設定を提案する。
具体的には、視覚言語モデル(VLM)に固有の意味一般化機能を活用し、SSDAパラダイム内の相乗的フレームワークを確立する。
長期分布におけるクラスバランスの課題に対処するために,学習過程を効果的に調整するクラスバランスのセグメンテーション損失の定式化を導入する。
多様なドメイン適応シナリオに対する広範な実験を通じて,現代のSoTA(State-of-the-art)手法よりも優れた性能を示す。
コードは: \href{https://github.com/hritam-98/SemiDAViL}{GitHub}.comで入手できる。
関連論文リスト
- VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation [3.776249047528669]
本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。
提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。
結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
論文 参考訳(メタデータ) (2024-12-12T12:49:42Z) - Pulling Target to Source: A New Perspective on Domain Adaptive Semantic Segmentation [80.1412989006262]
ドメイン適応セマンティックセグメンテーションは、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としています。
我々はT2S-DAを提案し、T2S-DAはドメイン適応のためのソースにターゲットを引っ張る形式として解釈する。
論文 参考訳(メタデータ) (2023-05-23T07:09:09Z) - Generalized Semantic Segmentation by Self-Supervised Source Domain
Projection and Multi-Level Contrastive Learning [79.0660895390689]
ソースドメインでトレーニングされたディープネットワークは、未確認のターゲットドメインデータでテストした場合、パフォーマンスが低下している。
汎用セマンティックセグメンテーションのためのドメイン・プロジェクションとコントラシブ・ラーニング(DPCL)手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T13:07:14Z) - Transferrable Contrastive Learning for Visual Domain Adaptation [108.98041306507372]
Transferrable Contrastive Learning (TCL) はドメイン適応に適した自己教師型学習パラダイムである。
TCLは、クリーンで斬新な対照的な損失を通じて、ソースとターゲット間のドメイン内ドメイン間の相違を罰する。
無料のランチは、対照的な学習が組み込まれているため、TCLは、ターゲットデータのための擬似ラベルの時間的にアンサンブルされたバージョンを自然に達成する、移動平均キーエンコーダに依存している。
論文 参考訳(メタデータ) (2021-12-14T16:23:01Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Semi-supervised Domain Adaptation for Semantic Segmentation [3.946367634483361]
セマンティックセグメンテーションにおけるクロスドメインとイントラドメインのギャップに対処する2段階の半教師付き二重ドメイン適応(SSDDA)手法を提案する。
提案手法は,2つの共通合成-実合成セマンティックセグメンテーションベンチマークにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-20T16:13:00Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Unsupervised Domain Adaptation for Semantic Segmentation via Low-level
Edge Information Transfer [27.64947077788111]
セマンティックセグメンテーションのための教師なしドメイン適応は、合成データに基づいて訓練されたモデルを実際の画像に適応させることを目的としている。
従来の特徴レベルの対数学習手法は、高レベルの意味的特徴に適応するモデルのみを考慮していた。
本稿では,ドメイン間ギャップが小さい低レベルエッジ情報を明示的に利用して意味情報の伝達をガイドする試みについて紹介する。
論文 参考訳(メタデータ) (2021-09-18T11:51:31Z) - Alleviating Semantic-level Shift: A Semi-supervised Domain Adaptation
Method for Semantic Segmentation [97.8552697905657]
このタスクの重要な課題は、ソースとターゲットドメイン間のデータ分散の相違を緩和する方法である。
本稿では,グローバルな視点とローカルな視点の両方から分布の整合性を促進できるASS(Alleviating Semantic-level Shift)を提案する。
GTA5、Cityscapes、Synthia、Cityscapesの2つのドメイン適応タスクにASSを適用します。
論文 参考訳(メタデータ) (2020-04-02T03:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。