論文の概要: VFM-Guided Semi-Supervised Detection Transformer for Source-Free Object Detection in Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2508.11167v1
- Date: Fri, 15 Aug 2025 02:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.716991
- Title: VFM-Guided Semi-Supervised Detection Transformer for Source-Free Object Detection in Remote Sensing Images
- Title(参考訳): リモートセンシング画像におけるソースフリー物体検出のためのVFM誘導半監督検出変換器
- Authors: Jianhong Han, Yupei Wang, Liang Chen,
- Abstract要約: VG-DETRは、Vision Foundation Model(VFM)を「フリーランチ」方法でトレーニングパイプラインに統合する。
擬似ラベルの信頼性を評価するために,VFMのセマンティックな事前情報を利用した擬似ラベルマイニング手法を提案する。
さらに,デュアルレベルのVFM誘導アライメント手法を提案し,インスタンスレベルと画像レベルでのVFM埋め込みと検出器特性を一致させる。
- 参考スコア(独自算出の注目度): 7.768332621617199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised domain adaptation methods have been widely explored to bridge domain gaps. However, in real-world remote-sensing scenarios, privacy and transmission constraints often preclude access to source domain data, which limits their practical applicability. Recently, Source-Free Object Detection (SFOD) has emerged as a promising alternative, aiming at cross-domain adaptation without relying on source data, primarily through a self-training paradigm. Despite its potential, SFOD frequently suffers from training collapse caused by noisy pseudo-labels, especially in remote sensing imagery with dense objects and complex backgrounds. Considering that limited target domain annotations are often feasible in practice, we propose a Vision foundation-Guided DEtection TRansformer (VG-DETR), built upon a semi-supervised framework for SFOD in remote sensing images. VG-DETR integrates a Vision Foundation Model (VFM) into the training pipeline in a "free lunch" manner, leveraging a small amount of labeled target data to mitigate pseudo-label noise while improving the detector's feature-extraction capability. Specifically, we introduce a VFM-guided pseudo-label mining strategy that leverages the VFM's semantic priors to further assess the reliability of the generated pseudo-labels. By recovering potentially correct predictions from low-confidence outputs, our strategy improves pseudo-label quality and quantity. In addition, a dual-level VFM-guided alignment method is proposed, which aligns detector features with VFM embeddings at both the instance and image levels. Through contrastive learning among fine-grained prototypes and similarity matching between feature maps, this dual-level alignment further enhances the robustness of feature representations against domain gaps. Extensive experiments demonstrate that VG-DETR achieves superior performance in source-free remote sensing detection tasks.
- Abstract(参考訳): ドメインのギャップを埋めるために、教師なしのドメイン適応法が広く研究されている。
しかし、現実世界のリモートセンシングのシナリオでは、プライバシと送信の制約によってソースドメインデータへのアクセスが妨げられ、実際の適用性が制限される。
最近、ソース・フリー・オブジェクト検出(SFOD)が有望な代替手段として登場し、主に自己学習パラダイムを通じて、ソースデータに頼ることなくドメイン間の適応を目指している。
SFODはその可能性にもかかわらず、特に高密度物体や複雑な背景を持つリモートセンシング画像において、ノイズの多い擬似ラベルによるトレーニング崩壊に悩まされることが多い。
限定的な対象ドメインアノテーションが実際に実現可能であることを考慮すると、リモートセンシング画像におけるSFODのための半教師付きフレームワーク上に構築されたビジョンファウンデーションガイド型検出TRANSformer (VG-DETR) を提案する。
VG-DETRはVision Foundation Model(VFM)を「フリーランチ」な方法でトレーニングパイプラインに統合し、少数のラベル付きターゲットデータを活用して擬似ラベルノイズを軽減し、検出器の特徴抽出能力を向上させる。
具体的には、VFMのセマンティックな事前情報を利用して、生成された擬似ラベルの信頼性をさらに評価する、VFM誘導擬似ラベルマイニング戦略を導入する。
低信頼出力から潜在的に正しい予測を復元することにより、擬似ラベルの品質と量を改善することができる。
さらに,デュアルレベルのVFM誘導アライメント手法を提案し,インスタンスレベルと画像レベルでのVFM埋め込みと検出器特性を一致させる。
微細なプロトタイプ間の対照的な学習と特徴写像間の類似性マッチングにより、この二重レベルアライメントは、ドメインギャップに対する特徴表現の堅牢性をさらに強化する。
大規模な実験により、VG-DETRはソースレスリモートセンシングタスクにおいて優れた性能を発揮することが示された。
関連論文リスト
- Style-Adaptive Detection Transformer for Single-Source Domain Generalized Object Detection [7.768332621617199]
単一ソースドメインの一般化は、未確認のターゲットドメインによく一般化するソースドメインデータのみを使用して検出器を開発することを目的としている。
既存の手法は主にCNNベースで、データ拡張と機能アライメントを組み合わせることで堅牢性を向上させる。
単一ソース領域の一般化に適したDTRベースの検出器であるStyle-Adaptive Detection TRansformer (SA-DETR)を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:38:37Z) - Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving [7.064497253920508]
特徴抽出器および密度モデリング技術としてのビジョンファウンデーションモデル(VFM)を提案する。
最先端のバイナリOOD分類法と比較すると、密度推定によるVFM埋め込みはOOD入力の同定において既存の手法よりも優れていることが分かる。
提案手法は,ダウンストリームタスクにおけるエラーの原因となる可能性のある高リスク入力を検出し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2025-01-14T12:51:34Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - Source-free Domain Adaptive Object Detection in Remote Sensing Images [11.19538606490404]
本研究では,RS画像のソースフリーオブジェクト検出(SFOD)設定を提案する。
これは、ソース事前学習モデルのみを使用してターゲットドメイン適応を実行することを目的としている。
本手法では,ソース領域RS画像へのアクセスは不要である。
論文 参考訳(メタデータ) (2024-01-31T15:32:44Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - Adversarial Alignment for Source Free Object Detection [24.99432954279032]
Source-free Object Detection (SFOD) は、ラベル豊富なソースドメインで事前訓練された検出器を、ソースデータを見ることなくラベルのないターゲットドメインに転送することを目的としている。
対象ドメインをソース類似部とソース異部に分割し,敵対学習により特徴空間に配置する。
提案手法は比較したSFOD法より一貫して優れる。
論文 参考訳(メタデータ) (2023-01-11T02:08:37Z) - Towards Robust Adaptive Object Detection under Noisy Annotations [40.25050610617893]
既存のメソッドでは、ソースドメインラベルは完全にクリーンだが、大規模なデータセットにはインスタンスの曖昧さのためにエラーが発生しやすいアノテーションが含まれることが多い。
本稿では,この問題に対処するためのノイズ遅延伝達可能性探索フレームワークを提案する。
NLTEは、60%の破損したアノテーションの下でmAPを8.4%改善し、クリーンソースデータセットでのトレーニングの理想的な上限にアプローチする。
論文 参考訳(メタデータ) (2022-04-06T07:02:37Z) - Instance Relation Graph Guided Source-Free Domain Adaptive Object
Detection [79.89082006155135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。
UDAメソッドは、ターゲットドメインの一般化を改善するために、ソースとターゲット表現を整列させようとする。
Source-Free Adaptation Domain (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。
論文 参考訳(メタデータ) (2022-03-29T17:50:43Z) - Decompose to Adapt: Cross-domain Object Detection via Feature
Disentanglement [79.2994130944482]
本研究では,DDF(Domain Disentanglement Faster-RCNN)を設計し,タスク学習のための特徴のソース固有情報を排除した。
DDF法は,グローバルトリプルト・ディアンタングルメント(GTD)モジュールとインスタンス類似性・ディアンタングルメント(ISD)モジュールを用いて,グローバルおよびローカルステージでの機能ディアンタングルを容易にする。
提案手法は,4つのUDAオブジェクト検出タスクにおいて最先端の手法より優れており,広い適用性で有効であることが実証された。
論文 参考訳(メタデータ) (2022-01-06T05:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。