論文の概要: Beyond Boundaries: Leveraging Vision Foundation Models for Source-Free Object Detection
- arxiv url: http://arxiv.org/abs/2511.07301v1
- Date: Mon, 10 Nov 2025 17:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.380796
- Title: Beyond Boundaries: Leveraging Vision Foundation Models for Source-Free Object Detection
- Title(参考訳): 境界を超えて: ソースフリーなオブジェクト検出のためのビジョンファウンデーションモデルを活用する
- Authors: Huizai Yao, Sicheng Zhao, Pengteng Li, Yi Cui, Shuo Lu, Weiyu Guo, Yunfan Lu, Yijie Xu, Hui Xiong,
- Abstract要約: Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースに制限されたオブジェクト検出器をターゲットドメインに適応することを目的としている。
ヴィジョン・ファンデーション・モデル(VFM)は、大規模で多様なデータに基づいて事前訓練され、強力な知覚能力と広範な一般化を示す。
本稿では,VFMを外部知識源として活用し,特徴アライメントとラベル品質を協調的に向上する新しいSFODフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.292554427633505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source-Free Object Detection (SFOD) aims to adapt a source-pretrained object detector to a target domain without access to source data. However, existing SFOD methods predominantly rely on internal knowledge from the source model, which limits their capacity to generalize across domains and often results in biased pseudo-labels, thereby hindering both transferability and discriminability. In contrast, Vision Foundation Models (VFMs), pretrained on massive and diverse data, exhibit strong perception capabilities and broad generalization, yet their potential remains largely untapped in the SFOD setting. In this paper, we propose a novel SFOD framework that leverages VFMs as external knowledge sources to jointly enhance feature alignment and label quality. Specifically, we design three VFM-based modules: (1) Patch-weighted Global Feature Alignment (PGFA) distills global features from VFMs using patch-similarity-based weighting to enhance global feature transferability; (2) Prototype-based Instance Feature Alignment (PIFA) performs instance-level contrastive learning guided by momentum-updated VFM prototypes; and (3) Dual-source Enhanced Pseudo-label Fusion (DEPF) fuses predictions from detection VFMs and teacher models via an entropy-aware strategy to yield more reliable supervision. Extensive experiments on six benchmarks demonstrate that our method achieves state-of-the-art SFOD performance, validating the effectiveness of integrating VFMs to simultaneously improve transferability and discriminability.
- Abstract(参考訳): Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースに制限されたオブジェクト検出器をターゲットドメインに適応することを目的としている。
しかし、既存のSFOD法は、主にソースモデルの内部知識に依存しており、ドメインをまたいで一般化する能力に制限があり、しばしばバイアス付き擬似ラベルが生じるため、転送可能性と識別可能性の両方を妨げる。
対照的に、ヴィジョン・ファンデーション・モデル(VFM)は、多種多様なデータに基づいて事前訓練され、強い知覚能力と広範な一般化を示すが、そのポテンシャルはSFOD設定においてほとんど失われていない。
本稿では,VFMを外部知識源として活用し,特徴アライメントとラベル品質を協調的に向上する新しいSFODフレームワークを提案する。
具体的には、3つのVFMベースのモジュールを設計する。(1)パッチ類似性に基づく重み付け(PGFA)によりVFMからグローバルな特徴を抽出し、グローバルな特徴伝達性を向上する;(2)プロトタイプベースのインスタンス特徴整合(PIFA)は、モーメントアップされたVFMプロトタイプによってガイドされるインスタンスレベルのコントラスト学習を行う;(3)デュアルソース強化Pseudo-label Fusion(DEPF)は、より信頼性の高いインテリジェンスを得るために、VFMの検出と教師モデルから予測を融合させる。
6つのベンチマークにおいて,本手法が最先端のSFOD性能を実現し,VFM統合の有効性を検証し,トランスファービリティと識別性を同時に向上することを示した。
関連論文リスト
- Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - VFM-Guided Semi-Supervised Detection Transformer under Source-Free Constraints for Remote Sensing Object Detection [9.029534000674388]
VG-DETRは、Vision Foundation Model(VFM)を「フリーランチ」方法でトレーニングパイプラインに統合する。
擬似ラベルの信頼性を評価するために,VFMのセマンティックな事前情報を利用した擬似ラベルマイニング手法を提案する。
さらに,デュアルレベルのVFM誘導アライメント手法を提案し,インスタンスレベルと画像レベルでのVFM埋め込みと検出器特性を一致させる。
論文 参考訳(メタデータ) (2025-08-15T02:35:56Z) - AdaFusion: Prompt-Guided Inference with Adaptive Fusion of Pathology Foundation Models [49.550545038402184]
本稿では,新しいプロンプト誘導推論フレームワークであるAdaFusionを提案する。
本手法は,多様なモデルからタイルレベルの特徴を圧縮・整列する。
AdaFusionは、分類タスクと回帰タスクの両方にわたって、個々のPFMを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:09:31Z) - Robust Federated Learning on Edge Devices with Domain Heterogeneity [13.362209980631876]
Federated Learning (FL)は、分散エッジデバイス間のデータプライバシを確保しながら、協調的なトレーニングを可能にする。
本稿では,FLグローバルモデルの一般化能力を向上させることにより,この問題に対処する新しいフレームワークを提案する。
特徴の多様性とモデルロバスト性を高めるために,プロトタイプベースのFLフレームワークであるFedAPCを紹介する。
論文 参考訳(メタデータ) (2025-05-15T09:53:14Z) - Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving [7.064497253920508]
特徴抽出器および密度モデリング技術としてのビジョンファウンデーションモデル(VFM)を提案する。
最先端のバイナリOOD分類法と比較すると、密度推定によるVFM埋め込みはOOD入力の同定において既存の手法よりも優れていることが分かる。
提案手法は,ダウンストリームタスクにおけるエラーの原因となる可能性のある高リスク入力を検出し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2025-01-14T12:51:34Z) - Test-Time Domain Generalization for Face Anti-Spoofing [60.94384914275116]
Face Anti-Spoofing (FAS) は、顔認識システムをプレゼンテーション攻撃から保護するために重要である。
本稿では,テストデータを活用してモデルの一般化性を高める新しいテスト時間領域一般化フレームワークについて紹介する。
テスト時間スタイル投影 (TTSP) とディバーススタイルシフトシミュレーション (DSSS) によって構成された本手法は, 目に見えないデータを領域空間に効果的に投影する。
論文 参考訳(メタデータ) (2024-03-28T11:50:23Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Reliable Federated Disentangling Network for Non-IID Domain Feature [62.73267904147804]
本稿では、RFedDisと呼ばれる新しい信頼性のあるフェデレーション・ディエンタングリング・ネットワークを提案する。
我々の知る限り、提案するRFedDisは、明らかな不確実性と特徴の混在に基づくFLアプローチを開発する最初の試みである。
提案するRFedDisは,他の最先端FL手法と比較して信頼性の高い優れた性能を提供する。
論文 参考訳(メタデータ) (2023-01-30T11:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。