論文の概要: Dual-Foundation Models for Unsupervised Domain Adaptation
- arxiv url: http://arxiv.org/abs/2605.03365v1
- Date: Tue, 05 May 2026 04:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.773419
- Title: Dual-Foundation Models for Unsupervised Domain Adaptation
- Title(参考訳): 教師なしドメイン適応のためのデュアルファウンデーションモデル
- Authors: Yerin Cheon, Aruna Balasubramanian, Francois Rameau,
- Abstract要約: セグメンテーションモデルのトレーニングには、現実世界のデータセットにコストがかかる、労働集約的なアノテーションが必要です。
Unsupervised Domain Adaptation (UDA)は、ラベル付き合成データ上でモデルをトレーニングし、ラベルなしの実画像に適用することによって、この問題に対処する。
本稿では,2つの相補的基礎モデルを利用する二重境界 UDA フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.279449016085348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation provides pixel-level scene understanding essential for autonomous driving and fine-grained perception tasks. However, training segmentation models requires costly, labor-intensive annotations on real-world datasets. Unsupervised Domain Adaptation (UDA) addresses this by training models on labeled synthetic data and adapting them to unlabeled real images. While conceptually simple, adaptation is challenging due to the domain gap, i.e., differences in visual appearance and scene structure between synthetic and real data. Prior approaches bridge this gap through pixel-level mixing or feature-level contrastive learning. Yet, these techniques suffer from two major limitations: (1) reliance on high-confidence pseudo-labels restricts learning to a subset of the target domain, and (2) prototype-based contrastive methods initialize class prototypes from source-trained models, yielding biased and unstable anchors during adaptation. To address these issues, we propose a dual-foundation UDA framework that leverages two complementary foundation models. First, we employ the Segment Anything Model (SAM) with superpixel-guided prompting to enable learning from a broader range of target pixels beyond high-confidence predictions. Second, we incorporate DINOv3 to construct stable, domain-invariant class prototypes through its robust representation learning. Our method achieves consistent improvements of +1.3% and +1.4% mIoU over strong UDA baselines on GTA-to-Cityscapes and SYNTHIA-to-Cityscapes, respectively.
- Abstract(参考訳): セマンティックセグメンテーションは、自律運転やきめ細かい知覚タスクに不可欠なピクセルレベルのシーン理解を提供する。
しかし、セグメンテーションモデルのトレーニングには、現実世界のデータセットに対する労働集約的なアノテーションが必要である。
Unsupervised Domain Adaptation (UDA)は、ラベル付き合成データ上でモデルをトレーニングし、ラベルなしの実画像に適用することによって、この問題に対処する。
概念的には単純ではあるが、ドメインギャップ、すなわち合成データと実データの間の視覚的外観とシーン構造の違いにより適応は困難である。
以前のアプローチでは、ピクセルレベルのミキシングや特徴レベルのコントラスト学習によって、このギャップを埋める。
しかし,これらの手法は,(1)高信頼な擬似ラベルが学習を対象領域のサブセットに限定すること,(2)プロトタイプベースのコントラスト手法が,ソース学習モデルからクラスプロトタイプを初期化し,適応中にバイアスや不安定なアンカーを生じること,の2つの大きな制約に悩まされている。
これらの問題に対処するために,2つの相補的基礎モデルを利用する二重境界 UDA フレームワークを提案する。
まず,Segment Anything Model(SAM)とスーパーピクセル誘導プロンプトを併用し,高信頼度予測を超える幅広い対象画素からの学習を可能にする。
第二に、DINOv3を組み込んで、その堅牢な表現学習を通じて、安定なドメイン不変クラスプロトタイプを構築します。
本手法は, GTA-to-Cityscapes と SynTHIA-to-Cityscapes の強い UDA ベースラインに対する +1.3% と +1.4% mIoU の一貫した改善を実現する。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - PiPa++: Towards Unification of Domain Adaptive Semantic Segmentation via Self-supervised Learning [34.786268652516355]
教師なしドメイン適応セグメンテーションは、それらのドメインのラベル付きデータに頼ることなく、ターゲットドメイン上のモデルのセグメンテーション精度を向上させることを目的としている。
ソースドメイン(ラベル付きデータが利用可能な場所)とターゲットドメイン(ラベルなしデータのみが存在する場所)の特徴表現の整合を図る。
論文 参考訳(メタデータ) (2024-07-24T08:53:29Z) - Focus on Your Target: A Dual Teacher-Student Framework for
Domain-adaptive Semantic Segmentation [210.46684938698485]
意味的セグメンテーションのための教師なしドメイン適応(UDA)について検討する。
対象領域からのトレーニングサンプルの割合を減少・増加させることで,「学習能力」が強化・弱まることがわかった。
本稿では,DTS(Double teacher-student)フレームワークを提案し,双方向学習戦略を取り入れた。
論文 参考訳(メタデータ) (2023-03-16T05:04:10Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。