論文の概要: A Study on Unsupervised Domain Adaptation for Semantic Segmentation in the Era of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.16407v1
- Date: Mon, 25 Nov 2024 14:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:28.971271
- Title: A Study on Unsupervised Domain Adaptation for Semantic Segmentation in the Era of Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける意味的セグメンテーションのための教師なし領域適応に関する研究
- Authors: Manuel Schwonberg, Claus Werner, Hanno Gottschalk, Carsten Meyer,
- Abstract要約: ドメインシフトは、ディープラーニングベースのコンピュータビジョンにおける大きな課題の1つです。
UDAメソッドは、そのドメインのラベルのないデータのみを使用することで、モデルを新しいターゲットドメインに適応させる。
最近の視覚言語モデルは、ドメイン適応を促進する強力な一般化能力を示している。
既存のUDAメソッドのエンコーダを視覚言語で事前学習したエンコーダに置き換えることで,大幅な性能向上が期待できることを示す。
- 参考スコア(独自算出の注目度): 1.2499537119440245
- License:
- Abstract: Despite the recent progress in deep learning based computer vision, domain shifts are still one of the major challenges. Semantic segmentation for autonomous driving faces a wide range of domain shifts, e.g. caused by changing weather conditions, new geolocations and the frequent use of synthetic data in model training. Unsupervised domain adaptation (UDA) methods have emerged which adapt a model to a new target domain by only using unlabeled data of that domain. The variety of UDA methods is large but all of them use ImageNet pre-trained models. Recently, vision-language models have demonstrated strong generalization capabilities which may facilitate domain adaptation. We show that simply replacing the encoder of existing UDA methods like DACS by a vision-language pre-trained encoder can result in significant performance improvements of up to 10.0% mIoU on the GTA5-to-Cityscapes domain shift. For the generalization performance to unseen domains, the newly employed vision-language pre-trained encoder provides a gain of up to 13.7% mIoU across three unseen datasets. However, we find that not all UDA methods can be easily paired with the new encoder and that the UDA performance does not always likewise transfer into generalization performance. Finally, we perform our experiments on an adverse weather condition domain shift to further verify our findings on a pure real-to-real domain shift.
- Abstract(参考訳): ディープラーニングベースのコンピュータビジョンの最近の進歩にもかかわらず、ドメインシフトは依然として大きな課題の1つだ。
自律運転のセマンティックセグメンテーションは、気象条件の変化、新しい位置情報、モデルトレーニングにおける合成データの頻繁な利用など、幅広い領域シフトに直面している。
非教師付きドメイン適応(UDA)メソッドは、そのドメインのラベルなしデータのみを使用することで、モデルを新しいターゲットドメインに適応させる。
様々なUDAメソッドは大きいが、すべてImageNet事前訓練モデルを使用している。
近年、視覚言語モデルは、ドメイン適応を促進する強力な一般化能力を示している。
GTA5-to-Cityscapesドメインシフトにおいて,DACSのような既存のUDAメソッドのエンコーダを視覚言語事前学習エンコーダに置き換えれば,最大10.0% mIoUの大幅な性能向上が得られることを示す。
目に見えない領域への一般化性能のために、新しく採用されたビジョン言語事前訓練エンコーダは、3つの目に見えないデータセットに対して最大13.7%のmIoUを提供する。
しかし、全てのUDAメソッドが新しいエンコーダと簡単にペアリングできる訳ではなく、UDAのパフォーマンスが必ずしも一般化性能に変換されるとは限らない。
最後に, 悪天候領域シフト実験を行い, 純粋な実・実領域シフトに関する知見をさらに検証した。
関連論文リスト
- Disentangling Masked Autoencoders for Unsupervised Domain Generalization [57.56744870106124]
教師なしの領域一般化は急速に注目されているが、まだ十分に研究されていない。
Disentangled Masked Auto (DisMAE) は、本質的な特徴を忠実に示す不整合表現を発見することを目的としている。
DisMAEは、セマンティックで軽量な変分エンコーダを備えた非対称なデュアルブランチアーキテクチャを共同で訓練する。
論文 参考訳(メタデータ) (2024-07-10T11:11:36Z) - Grounding Stylistic Domain Generalization with Quantitative Domain Shift Measures and Synthetic Scene Images [63.58800688320182]
ドメインの一般化は機械学習において難しい課題である。
現在の方法論は、スタイリスティック領域におけるシフトに関する定量的な理解を欠いている。
これらのリスクに対処する新しいDGパラダイムを導入する。
論文 参考訳(メタデータ) (2024-05-24T22:13:31Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation [48.039156140237615]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、連続的なテスト時間適応タスクを提案する。
我々はCTTA用のVisual Domain Adapter (ViDA) を設計し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by
Normalization [10.274423413222763]
ドメイン適応は、学習したモデルを、ドメインシフトやデータ分散の変更など、新しいシナリオに適応するために不可欠である。
現在のアプローチは通常、シフトしたドメインから大量のラベル付きまたはラベルなしのデータを必要とする。
本稿では,この問題を解決するために動的教師なし適応(DUA)を提案する。
論文 参考訳(メタデータ) (2021-12-01T12:43:41Z) - VisDA-2021 Competition Universal Domain Adaptation to Improve
Performance on Out-of-Distribution Data [64.91713686654805]
Visual Domain Adaptation (VisDA) 2021コンペティションは、新しいテストディストリビューションに適応するモデルの能力をテストする。
我々は,新しい視点,背景,モダリティ,品質劣化への適応性を評価する。
厳密なプロトコルを使用してパフォーマンスを計測し、最先端のドメイン適応手法と比較する。
論文 参考訳(メタデータ) (2021-07-23T03:21:51Z) - Semi-supervised Meta-learning with Disentanglement for
Domain-generalised Medical Image Segmentation [15.351113774542839]
新たなセンター(ここではドメイン)からの新しいデータにモデルを一般化することは、依然として課題である。
本稿では,絡み合いを伴う半教師付きメタラーニングフレームワークを提案する。
提案手法は,異なるセグメンテーションタスクに対して頑健であり,2つの公開ベンチマーク上での最先端の一般化性能を実現する。
論文 参考訳(メタデータ) (2021-06-24T19:50:07Z) - Knowledge Distillation for BERT Unsupervised Domain Adaptation [2.969705152497174]
トレーニング済みの言語モデルであるBERTは、さまざまな自然言語処理タスクで大幅なパフォーマンス向上を実現している。
蒸留による逆順応法(AAD)を提案する。
ドメイン間感情分類におけるアプローチを30組のドメイン対で評価した。
論文 参考訳(メタデータ) (2020-10-22T06:51:24Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。