論文の概要: VFM-UDA++: Improving Network Architectures and Data Strategies for Unsupervised Domain Adaptive Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2503.10685v1
- Date: Tue, 11 Mar 2025 19:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:11.669374
- Title: VFM-UDA++: Improving Network Architectures and Data Strategies for Unsupervised Domain Adaptive Semantic Segmentation
- Title(参考訳): VFM-UDA++:教師なしドメイン適応セマンティックセマンティックセグメンテーションのためのネットワークアーキテクチャとデータストラテジーの改善
- Authors: Brunó B. Englert, Gijs Dubbelman,
- Abstract要約: Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベルなしターゲットドメインへの驚くほど強力な一般化を示している。
この作業では、さらに一歩進めて、UDAアーキテクチャとデータ戦略自体を改善します。
VFM-UDA++の2つの制限に対処し、最大5.3 mIoUの標準UDAベンチマークでSotAを超越した一般化を得る。
- 参考スコア(独自算出の注目度): 1.3505077405741583
- License:
- Abstract: Unsupervised Domain Adaptation (UDA) has shown remarkably strong generalization from a labeled source domain to an unlabeled target domain while requiring relatively little data. At the same time, large-scale pretraining without labels of so-called Vision Foundation Models (VFMs), has also significantly improved downstream generalization. This motivates us to research how UDA can best utilize the benefits of VFMs. The earlier work of VFM-UDA showed that beyond state-of-the-art (SotA) results can be obtained by replacing non-VFM with VFM encoders in SotA UDA methods. In this work, we take it one step further and improve on the UDA architecture and data strategy themselves. We observe that VFM-UDA, the current SotA UDA method, does not use multi-scale inductive biases or feature distillation losses, while it is known that these can improve generalization. We address both limitations in VFM-UDA++ and obtain beyond SotA generalization on standard UDA benchmarks of up to +5.3 mIoU. Inspired by work on VFM fine-tuning, such as Rein, we also explore the benefits of adding more easy-to-generate synthetic source data with easy-to-obtain unlabeled target data and realize a +6.6 mIoU over the current SotA. The improvements of VFM-UDA++ are most significant for smaller models, however, we show that for larger models, the obtained generalization is only 2.8 mIoU from that of fully-supervised learning with all target labels. Based on these strong results, we provide essential insights to help researchers and practitioners advance UDA.
- Abstract(参考訳): Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベルなしターゲットドメインへの極めて強力な一般化を、比較的少ないデータで示している。
同時に、VFM(Vision Foundation Models)と呼ばれるラベルのない大規模な事前訓練も、下流の一般化を著しく改善した。
このことは、UDAがVFMの利点を最大限に活用できるかを研究する動機となっている。
VFM-UDAの初期の研究は、非VFMをSotA UDA法でVFMエンコーダに置き換えることで、最先端(SotA)以上の結果が得られることを示した。
この作業では、さらに一歩進めて、UDAアーキテクチャとデータ戦略自体を改善します。
我々は,現在の SotA UDA 法である VFM-UDA が多スケール誘導バイアスや特徴蒸留損失を使わず,一般化を向上できることが知られている。
VFM-UDA++の2つの制限に対処し、最大5.3 mIoUの標準UDAベンチマークでSotAを超越した一般化を得る。
Rein のような VFM の微調整の研究に触発され、より簡単に生成可能な合成ソースデータとラベル付けされていないターゲットデータを追加し、現在の SotA 上で +6.6 mIoU を実現する利点についても検討した。
VFM-UDA++の改良は、より小さなモデルでは最も重要であるが、より大規模なモデルでは、得られた一般化は、全てのターゲットラベルで完全に教師付き学習を行う場合の2.8 mIoUに過ぎなかった。
これらの強い結果に基づいて、研究者や実践者が UDA を前進させるのに役立つ重要な洞察を提供する。
関連論文リスト
- AirIO: Learning Inertial Odometry with Enhanced IMU Feature Observability [29.048995291376038]
慣性計測ユニット(IMU)のみを用いた慣性計測(IO)は、無人航空機(UAV)用途に軽量で費用対効果の高いソリューションを提供する。
既存の学習ベースのIOモデルは、歩行者の動きとは異なる非常にダイナミックで非線形なパターンのため、UAVへの一般化に失敗することが多い。
本研究では,従来のIMUデータからグローバル座標への変換は,UAVにおける重要なキネマティック情報の可観測性を損なうものであることを確認した。
論文 参考訳(メタデータ) (2025-01-26T19:43:41Z) - MICDrop: Masking Image and Depth Features via Complementary Dropout for Domain-Adaptive Semantic Segmentation [155.0797148367653]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインギャップを埋めるタスクである。
深度不連続性はしばしばセグメンテーション境界と一致するため、幾何学的情報、すなわち深度予測を活用することを提案する。
提案手法は, 様々な UDA 手法にプラグインし, 標準 UDA ベンチマークで連続的に結果を改善することができることを示す。
論文 参考訳(メタデータ) (2024-08-29T12:15:10Z) - Disentangling Masked Autoencoders for Unsupervised Domain Generalization [57.56744870106124]
教師なしの領域一般化は急速に注目されているが、まだ十分に研究されていない。
Disentangled Masked Auto (DisMAE) は、本質的な特徴を忠実に示す不整合表現を発見することを目的としている。
DisMAEは、セマンティックで軽量な変分エンコーダを備えた非対称なデュアルブランチアーキテクチャを共同で訓練する。
論文 参考訳(メタデータ) (2024-07-10T11:11:36Z) - Towards Trustworthy Unsupervised Domain Adaptation: A Representation Learning Perspective for Enhancing Robustness, Discrimination, and Generalization [31.176062426569068]
Robust Unsupervised Domain Adaptation (RoUDA)は、クリーンなだけでなく、堅牢なドメイン間の知識伝達を実現することを目的としている。
我々は, 相互情報理論(MIRoUDA)を利用した新しいアルゴリズムを設計する。
我々の手法は最先端の技術をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-19T03:19:34Z) - Exploring the Benefits of Vision Foundation Models for Unsupervised Domain Adaptation [1.5845117761091052]
本研究では、VFM(Vision Foundation Models)とUnsupervised Domain Adaptation(Unsupervised Domain Adaptation)の手法が相補的かどうかを検討する。
その結果,VFMとUDAを併用することで,VFMのアウト・オブ・ディストリビューション性能を維持しつつ,UDAのパフォーマンスが向上し,また,(b)特定の時間を消費するUDAコンポーネントを冗長にする,という2つの利点が示された。
論文 参考訳(メタデータ) (2024-06-14T10:13:37Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation [17.875516787157018]
本研究では,2次元視覚基礎モデルから得られた知識を活用して,ラベルのない対象ドメインのより正確なラベルを生成する方法について検討する。
本手法は, 各種自律走行データセットを用いて評価し, 3次元セグメンテーションタスクにおいて有意な改善が得られた。
論文 参考訳(メタデータ) (2024-03-15T03:58:17Z) - CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D
Object Detection [14.063365469339812]
LiDARベースの3Dオブジェクト検出法は、ソース(またはトレーニング)データ配布の外部のターゲットドメインにうまく一般化しないことが多い。
画像のモダリティから視覚的セマンティックキューを活用する,CMDA (unsupervised domain adaptation) と呼ばれる新しい手法を提案する。
また、自己学習に基づく学習戦略を導入し、モデルが逆向きに訓練され、ドメイン不変の機能を生成する。
論文 参考訳(メタデータ) (2024-03-06T14:12:38Z) - ERM++: An Improved Baseline for Domain Generalization [69.80606575323691]
経験的リスク最小化(ERM)は、適切に調整された場合、最も複雑なドメイン一般化(DG)手法より優れている。
ERM++は以前のEMMベースラインと比較してDGのパフォーマンスを5%以上改善している。
論文 参考訳(メタデータ) (2023-04-04T17:31:15Z) - UMAD: Universal Model Adaptation under Domain and Category Shift [138.12678159620248]
Universal Model Adaptation (UMAD)フレームワークは、ソースデータにアクセスせずに両方のUDAシナリオを処理する。
未知のサンプルと未知のサンプルを識別するのに役立つ情報整合性スコアを開発した。
オープンセットおよびオープンパーティルセット UDA シナリオの実験では、UMAD が最先端のデータ依存手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2021-12-16T01:22:59Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。