論文の概要: VFM-UDA++: Improving Network Architectures and Data Strategies for Unsupervised Domain Adaptive Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2503.10685v2
- Date: Sun, 10 Aug 2025 06:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.222473
- Title: VFM-UDA++: Improving Network Architectures and Data Strategies for Unsupervised Domain Adaptive Semantic Segmentation
- Title(参考訳): VFM-UDA++:教師なしドメイン適応セマンティックセマンティックセグメンテーションのためのネットワークアーキテクチャとデータストラテジーの改善
- Authors: Brunó B. Englert, Gijs Dubbelman,
- Abstract要約: Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベルなしターゲットドメインへの強力な一般化を可能にする。
本稿では,VFM-UDA++を提案する。VFM-UDA++は,マルチスケール機能の役割を解明し,VTベースのVFMと互換性のある特徴距離損失に適応し,UDAが合成ソースや実際のターゲットデータの増加によるメリットを評価する。
- 参考スコア(独自算出の注目度): 1.3505077405741583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Domain Adaptation (UDA) enables strong generalization from a labeled source domain to an unlabeled target domain, often with limited data. In parallel, Vision Foundation Models (VFMs) pretrained at scale without labels have also shown impressive downstream performance and generalization. This motivates us to explore how UDA can best leverage VFMs. Prior work (VFM-UDA) demonstrated that replacing a standard ImageNet-pretrained encoder with a VFM improves generalization. However, it also showed that commonly used feature distance losses harm performance when applied to VFMs. Additionally, VFM-UDA does not incorporate multi-scale inductive biases, which are known to improve semantic segmentation. Building on these insights, we propose VFM-UDA++, which (1) investigates the role of multi-scale features, (2) adapts feature distance loss to be compatible with ViT-based VFMs and (3) evaluates how UDA benefits from increased synthetic source and real target data. By addressing these questions, we can improve performance on the standard GTA5 $\rightarrow$ Cityscapes benchmark by +1.4 mIoU. While prior non-VFM UDA methods did not scale with more data, VFM-UDA++ shows consistent improvement and achieves a further +2.4 mIoU gain when scaling the data, demonstrating that VFM-based UDA continues to benefit from increased data availability.
- Abstract(参考訳): Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベルなしターゲットドメインへの強力な一般化を可能にする。
並行して、ラベルなしで大規模に事前訓練されたビジョンファウンデーションモデル(VFM)も、ダウンストリームのパフォーマンスと一般化を印象的に示した。
これは、UDAがVFMを最大限活用できるかを探求する動機となります。
以前の研究 (VFM-UDA) では、標準の ImageNet-pretrained エンコーダを VFM に置き換えることにより、一般化が改善された。
しかし, VFMに適用した場合, 一般的に用いられている特徴距離損失は, 性能に悪影響を及ぼすことが示された。
さらに、VFM-UDAには、セマンティックセグメンテーションを改善することが知られているマルチスケールの帰納バイアスが組み込まれていない。
これらの知見に基づいて,(1)マルチスケール機能の役割を探求し,(2)VTベースのVFMと互換性のある特徴距離損失を適応し,(3)UDAが人工的ソースと実際のターゲットデータの増加からどのような恩恵を受けるかを評価するVFM-UDA++を提案する。
これらの疑問に対処することで、標準のGTA5 $\rightarrow$ Cityscapesベンチマークのパフォーマンスを+1.4 mIoUで改善できる。
以前のVFM以外のUDAメソッドは、より多くのデータでスケールしなかったが、VFM-UDA++は、一貫性のある改善を示し、データのスケーリング時にさらに2.4 mIoUのゲインを達成する。
関連論文リスト
- What is the Added Value of UDA in the VFM Era? [1.201626478128059]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、認識モデルの未ラベル対象領域への一般化を改善する。
UDAは、VFM(Vision Foundation Models)と合成ソースデータを用いて、実際のターゲットデータを用いた完全教師付き学習に匹敵する一般化性能を実現する。
論文 参考訳(メタデータ) (2025-04-25T09:10:10Z) - AirIO: Learning Inertial Odometry with Enhanced IMU Feature Observability [29.048995291376038]
慣性計測ユニット(IMU)のみを用いた慣性計測(IO)は、無人航空機(UAV)用途に軽量で費用対効果の高いソリューションを提供する。
既存の学習ベースのIOモデルは、歩行者の動きとは異なる非常にダイナミックで非線形なパターンのため、UAVへの一般化に失敗することが多い。
本研究では,従来のIMUデータからグローバル座標への変換は,UAVにおける重要なキネマティック情報の可観測性を損なうものであることを確認した。
論文 参考訳(メタデータ) (2025-01-26T19:43:41Z) - MICDrop: Masking Image and Depth Features via Complementary Dropout for Domain-Adaptive Semantic Segmentation [155.0797148367653]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインギャップを埋めるタスクである。
深度不連続性はしばしばセグメンテーション境界と一致するため、幾何学的情報、すなわち深度予測を活用することを提案する。
提案手法は, 様々な UDA 手法にプラグインし, 標準 UDA ベンチマークで連続的に結果を改善することができることを示す。
論文 参考訳(メタデータ) (2024-08-29T12:15:10Z) - Disentangling Masked Autoencoders for Unsupervised Domain Generalization [57.56744870106124]
教師なしの領域一般化は急速に注目されているが、まだ十分に研究されていない。
Disentangled Masked Auto (DisMAE) は、本質的な特徴を忠実に示す不整合表現を発見することを目的としている。
DisMAEは、セマンティックで軽量な変分エンコーダを備えた非対称なデュアルブランチアーキテクチャを共同で訓練する。
論文 参考訳(メタデータ) (2024-07-10T11:11:36Z) - Towards Trustworthy Unsupervised Domain Adaptation: A Representation Learning Perspective for Enhancing Robustness, Discrimination, and Generalization [31.176062426569068]
Robust Unsupervised Domain Adaptation (RoUDA)は、クリーンなだけでなく、堅牢なドメイン間の知識伝達を実現することを目的としている。
我々は, 相互情報理論(MIRoUDA)を利用した新しいアルゴリズムを設計する。
我々の手法は最先端の技術をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-19T03:19:34Z) - Exploring the Benefits of Vision Foundation Models for Unsupervised Domain Adaptation [1.5845117761091052]
本研究では、VFM(Vision Foundation Models)とUnsupervised Domain Adaptation(Unsupervised Domain Adaptation)の手法が相補的かどうかを検討する。
その結果,VFMとUDAを併用することで,VFMのアウト・オブ・ディストリビューション性能を維持しつつ,UDAのパフォーマンスが向上し,また,(b)特定の時間を消費するUDAコンポーネントを冗長にする,という2つの利点が示された。
論文 参考訳(メタデータ) (2024-06-14T10:13:37Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation [17.875516787157018]
本研究では,2次元視覚基礎モデルから得られた知識を活用して,ラベルのない対象ドメインのより正確なラベルを生成する方法について検討する。
本手法は, 各種自律走行データセットを用いて評価し, 3次元セグメンテーションタスクにおいて有意な改善が得られた。
論文 参考訳(メタデータ) (2024-03-15T03:58:17Z) - ERM++: An Improved Baseline for Domain Generalization [69.80606575323691]
経験的リスク最小化(ERM)は、適切に調整された場合、最も複雑なドメイン一般化(DG)手法より優れている。
ERM++は以前のEMMベースラインと比較してDGのパフォーマンスを5%以上改善している。
論文 参考訳(メタデータ) (2023-04-04T17:31:15Z) - UMAD: Universal Model Adaptation under Domain and Category Shift [138.12678159620248]
Universal Model Adaptation (UMAD)フレームワークは、ソースデータにアクセスせずに両方のUDAシナリオを処理する。
未知のサンプルと未知のサンプルを識別するのに役立つ情報整合性スコアを開発した。
オープンセットおよびオープンパーティルセット UDA シナリオの実験では、UMAD が最先端のデータ依存手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2021-12-16T01:22:59Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。