論文の概要: Large Self-Supervised Models Bridge the Gap in Domain Adaptive Object Detection
- arxiv url: http://arxiv.org/abs/2503.23220v1
- Date: Sat, 29 Mar 2025 20:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:55.333148
- Title: Large Self-Supervised Models Bridge the Gap in Domain Adaptive Object Detection
- Title(参考訳): 領域適応物体検出におけるギャップを橋渡しする大規模自己監督モデル
- Authors: Marc-Antoine Lavoie, Anas Mahmoud, Steven L. Waslander,
- Abstract要約: ドメイン適応オブジェクト検出(DAOD)における現在の手法は、平均教師の自己ラベルを用いる。
本稿では,2つの構成要素からなるDINOインストラクターを紹介する。
まず、大きな凍結したDINOv2バックボーンのみを使用して、ソースデータに新しいラベルラーをトレーニングする。
- 参考スコア(独自算出の注目度): 9.4635781179442
- License:
- Abstract: The current state-of-the-art methods in domain adaptive object detection (DAOD) use Mean Teacher self-labelling, where a teacher model, directly derived as an exponential moving average of the student model, is used to generate labels on the target domain which are then used to improve both models in a positive loop. This couples learning and generating labels on the target domain, and other recent works also leverage the generated labels to add additional domain alignment losses. We believe this coupling is brittle and excessively constrained: there is no guarantee that a student trained only on source data can generate accurate target domain labels and initiate the positive feedback loop, and much better target domain labels can likely be generated by using a large pretrained network that has been exposed to much more data. Vision foundational models are exactly such models, and they have shown impressive task generalization capabilities even when frozen. We want to leverage these models for DAOD and introduce DINO Teacher, which consists of two components. First, we train a new labeller on source data only using a large frozen DINOv2 backbone and show it generates more accurate labels than Mean Teacher. Next, we align the student's source and target image patch features with those from a DINO encoder, driving source and target representations closer to the generalizable DINO representation. We obtain state-of-the-art performance on multiple DAOD datasets. Code available at https://github.com/TRAILab/DINO_Teacher
- Abstract(参考訳): ドメイン適応オブジェクト検出(DAOD)における現在の最先端の手法は、学生モデルの指数移動平均として直接導出される教師モデルを用いて、両方のモデルを正ループで改善するために使用されるターゲットドメイン上のラベルを生成する。
これにより、ターゲットドメイン上のラベルを学習して生成すると同時に、他の最近の研究でも生成されたラベルを活用して、追加のドメインアライメント損失を追加することができる。
ソースデータのみをトレーニングした学生が正確なターゲットドメインラベルを生成でき、ポジティブなフィードバックループを開始することは保証されておらず、より多くのデータに晒された巨大な事前トレーニングされたネットワークを使用することで、はるかに優れたターゲットドメインラベルを生成することが可能である。
視覚基礎モデルはまさにそのようなモデルであり、凍結しても驚くべきタスク一般化能力を示している。
我々はこれらのモデルをDAODに活用し、2つのコンポーネントからなるDINO Teacherを紹介したい。
まず、大きな凍結したDINOv2バックボーンのみを使用して、ソースデータ上に新しいラベルラーをトレーニングし、平均教師よりも正確なラベルを生成することを示す。
次に、学生のソースおよびターゲット画像パッチの特徴を、一般化可能なDINO表現に近いDINOエンコーダ、駆動ソースおよびターゲット表現の特徴と整合させる。
複数のDAODデータセット上で最先端の性能を得る。
Code available at https://github.com/TRAILab/DINO_Teacher
関連論文リスト
- Versatile Teacher: A Class-aware Teacher-student Framework for Cross-domain Adaptation [2.9748058103007957]
私たちはVersatile Teacher(VT)という新しい教師学生モデルを紹介します。
VTはクラス固有の検出困難を考慮し、2段階の擬似ラベル選択機構を用いてより信頼性の高い擬似ラベルを生成する。
提案手法は,3つのベンチマークデータセットに対して有望な結果を示し,広範に使用されている1段検出器のアライメント手法を拡張した。
論文 参考訳(メタデータ) (2024-05-20T03:31:43Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - Focus on Your Target: A Dual Teacher-Student Framework for
Domain-adaptive Semantic Segmentation [210.46684938698485]
意味的セグメンテーションのための教師なしドメイン適応(UDA)について検討する。
対象領域からのトレーニングサンプルの割合を減少・増加させることで,「学習能力」が強化・弱まることがわかった。
本稿では,DTS(Double teacher-student)フレームワークを提案し,双方向学習戦略を取り入れた。
論文 参考訳(メタデータ) (2023-03-16T05:04:10Z) - Robust Target Training for Multi-Source Domain Adaptation [110.77704026569499]
両レベル最適化に基づく新しいMSDAのためのロバスト目標訓練法(BORT$2$)を提案する。
提案手法は,大規模なDomainNetデータセットを含む3つのMSDAベンチマークにおいて,アートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2022-10-04T15:20:01Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - Pseudo-labeling for Scalable 3D Object Detection [39.421800559593414]
3Dオブジェクト検出のための擬似ラベル付けは、安価で広く利用可能な未ラベルデータを利用する効果的な方法である。
教師モデルの改善によって生徒モデルが向上し,高価な教師を効率的でシンプルな学生に蒸留できることを示した。
論文 参考訳(メタデータ) (2021-03-02T23:48:29Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Teacher-Student Consistency For Multi-Source Domain Adaptation [28.576613317253035]
マルチソースドメイン適応(MSDA)では、モデルは複数のソースドメインのサンプルに基づいてトレーニングされ、異なるターゲットドメインの推論に使用される。
本稿では,これらの問題を緩和する新手法であるMulti-source Students Teacher (MUST)を提案する。
論文 参考訳(メタデータ) (2020-10-20T06:17:40Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。