論文の概要: Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2509.23626v1
- Date: Sun, 28 Sep 2025 04:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.336566
- Title: Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models
- Title(参考訳): ビジョンファウンデーションモデルを用いたドメイン適応型マルチタスクディエンス予測の効率化
- Authors: Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera,
- Abstract要約: 本稿では,視覚基礎モデル(VFM)を強力な教師として活用することにより,このギャップを埋める,シンプルで効果的なUDAフレームワークであるFAMDAを紹介する。
提案手法は,基礎モデルを自己学習パラダイムに統合し,対象ドメインに対する高品質な擬似ラベルを生成する。
実験により、FAMDAは、標準の合成から現実のUDAマルチタスク学習ベンチマークにおいて、最先端(SOTA)性能を達成し、日々の適応に挑戦することが示されている。
- 参考スコア(独自算出の注目度): 8.197984309863314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task dense prediction, which aims to jointly solve tasks like semantic segmentation and depth estimation, is crucial for robotics applications but suffers from domain shift when deploying models in new environments. While unsupervised domain adaptation (UDA) addresses this challenge for single tasks, existing multi-task UDA methods primarily rely on adversarial learning approaches that are less effective than recent self-training techniques. In this paper, we introduce FAMDA, a simple yet effective UDA framework that bridges this gap by leveraging Vision Foundation Models (VFMs) as powerful teachers. Our approach integrates Segmentation and Depth foundation models into a self-training paradigm to generate high-quality pseudo-labels for the target domain, effectively distilling their robust generalization capabilities into a single, efficient student network. Extensive experiments show that FAMDA achieves state-of-the-art (SOTA) performance on standard synthetic-to-real UDA multi-task learning (MTL) benchmarks and a challenging new day-to-night adaptation task. Our framework enables the training of highly efficient models; a lightweight variant achieves SOTA accuracy while being more than 10$\times$ smaller than foundation models, highlighting FAMDA's suitability for creating domain-adaptive and efficient models for resource-constrained robotics applications.
- Abstract(参考訳): セマンティックセグメンテーションや深さ推定といったタスクを共同で解決することを目的としたマルチタスク密度予測は、ロボティクスアプリケーションには不可欠だが、新しい環境にモデルをデプロイする際のドメインシフトに悩まされている。
教師なしドメイン適応(UDA)は、単一タスクのこの課題に対処するが、既存のマルチタスク UDA メソッドは主に、最近の自己学習技術よりも効果の低い敵の学習アプローチに依存している。
本稿では,視覚基礎モデル(VFM)を強力な教師として活用することにより,このギャップを埋める,シンプルで効果的なUDAフレームワークであるFAMDAを紹介する。
提案手法では,SegmentationとDepthの基礎モデルを自己学習パラダイムに統合し,対象領域に対する高品質な擬似ラベルを生成する。
広汎な実験により,FAMDAは,標準合成UDAマルチタスク学習(MTL)ベンチマークにおけるSOTA(State-of-the-art)のパフォーマンスを達成し,日々の適応に挑戦することが示されている。
我々のフレームワークは,高度に効率的なモデルのトレーニングを可能にし,軽量な変種は基礎モデルよりも10$\times$小さいSOTA精度を実現し,FAMDAが資源制約のあるロボットアプリケーションのためにドメイン適応的で効率的なモデルを作成するのに適していることを強調した。
関連論文リスト
- DUDA: Distilled Unsupervised Domain Adaptation for Lightweight Semantic Segmentation [9.568820012635355]
教師なしドメイン適応(UDA)は、コストのかかるピクセル単位のアノテーションを必要とせずに、新しいドメインのセマンティックセグメンテーションを可能にするために不可欠である。
本研究では,EMAをベースとした自己学習と知識蒸留を組み合わせた新しいフレームワークであるDistilled Unsupervised Domain Adaptation (DUDA)を提案する。
本手法では,EMAベースの更新のための重み付けモデルと軽量モデルのアーキテクチャギャップを埋めるために,補助的な学生ネットワークを用いる。
論文 参考訳(メタデータ) (2025-04-14T02:30:18Z) - Efficient Domain Adaptation of Multimodal Embeddings using Constrastive Learning [0.08192907805418582]
現在のアプローチでは、タスク固有の適応なしに事前訓練されたモデルを使用する際にサブパー結果を得るか、あるいは微調整のためにかなりの計算資源を必要とする。
本稿では,高コストな微調整処理を必要とせず,基礎的なマルチモーダルな埋め込みを下流タスクに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T06:30:12Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks [12.146530928616386]
目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。
この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。
事前学習したモデルの重み空間内でモデル適応を誘導する疎定義の重み集合からなる,新しい簡易な方法であるモデルブレッドクラブを導入する。
論文 参考訳(メタデータ) (2023-12-11T19:10:55Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Orchestration of Emulator Assisted Mobile Edge Tuning for AI Foundation
Models: A Multi-Agent Deep Reinforcement Learning Approach [10.47302625959368]
我々は,モバイルエッジコンピューティングと基礎モデルを統合した画期的なパラダイムを提示する。
私たちのアプローチの中心はイノベーティブなEmulator-Adapterアーキテクチャであり、基礎モデルを2つの凝集モジュールに分割する。
本稿では,分散環境におけるEmulator-Adapter構造のニーズに合わせて微調整された高度なリソース割り当て機構を提案する。
論文 参考訳(メタデータ) (2023-10-26T15:47:51Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。