論文の概要: Teaching in adverse scenes: a statistically feedback-driven threshold and mask adjustment teacher-student framework for object detection in UAV images under adverse scenes
- arxiv url: http://arxiv.org/abs/2506.11175v1
- Date: Thu, 12 Jun 2025 09:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.533968
- Title: Teaching in adverse scenes: a statistically feedback-driven threshold and mask adjustment teacher-student framework for object detection in UAV images under adverse scenes
- Title(参考訳): 悪場面における教示:悪場面下でのUAV画像における統計的フィードバック駆動しきい値とマスク調整教師学習の枠組み
- Authors: Hongyu Chen, Jiping Liu, Yong Wang, Jun Zhu, Dejun Feng, Yakun Xie,
- Abstract要約: Unsupervised Domain Adaptation (UDA)は、ソースとターゲットのドメイン間のドメインギャップに起因するパフォーマンス劣化を効果的に軽減する。
しかし、既存のUDA研究は自然画像や鮮明なUAV画像に基づいている。
本稿では,UAVオブジェクト検出のための最初のベンチマークとして,統計的フィードバック駆動閾値とマスク調整教師学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.941247028439477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Domain Adaptation (UDA) has shown promise in effectively alleviating the performance degradation caused by domain gaps between source and target domains, and it can potentially be generalized to UAV object detection in adverse scenes. However, existing UDA studies are based on natural images or clear UAV imagery, and research focused on UAV imagery in adverse conditions is still in its infancy. Moreover, due to the unique perspective of UAVs and the interference from adverse conditions, these methods often fail to accurately align features and are influenced by limited or noisy pseudo-labels. To address this, we propose the first benchmark for UAV object detection in adverse scenes, the Statistical Feedback-Driven Threshold and Mask Adjustment Teacher-Student Framework (SF-TMAT). Specifically, SF-TMAT introduces a design called Dynamic Step Feedback Mask Adjustment Autoencoder (DSFMA), which dynamically adjusts the mask ratio and reconstructs feature maps by integrating training progress and loss feedback. This approach dynamically adjusts the learning focus at different training stages to meet the model's needs for learning features at varying levels of granularity. Additionally, we propose a unique Variance Feedback Smoothing Threshold (VFST) strategy, which statistically computes the mean confidence of each class and dynamically adjusts the selection threshold by incorporating a variance penalty term. This strategy improves the quality of pseudo-labels and uncovers potentially valid labels, thus mitigating domain bias. Extensive experiments demonstrate the superiority and generalization capability of the proposed SF-TMAT in UAV object detection under adverse scene conditions. The Code is released at https://github.com/ChenHuyoo .
- Abstract(参考訳): 教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ソースとターゲットドメイン間のドメインギャップに起因するパフォーマンス劣化を効果的に軽減し、有害な場面でUAVオブジェクト検出に一般化することができる。
しかし、既存のUDA研究は、自然画像や鮮明なUAV画像に基づいており、悪条件下でのUAV画像に焦点を当てた研究はまだ初期段階にある。
さらに、UAVのユニークな視点と悪条件からの干渉により、これらの手法は特徴を正確に整列することができず、限定的あるいはノイズの多い擬似ラベルの影響を受けていることが多い。
そこで我々は, 統計的フィードバック駆動型閾値とマスク調整型教師学習フレームワーク (SF-TMAT) を用いた, 有害な場面におけるUAV物体検出のための最初のベンチマークを提案する。
具体的には、DSFMA(Dynamic Step Feedback Mask Adjustment Autoencoder)と呼ばれる設計を導入し、マスク比を動的に調整し、トレーニングの進捗と損失フィードバックを統合することで特徴マップを再構築する。
このアプローチは、異なるトレーニング段階における学習の焦点を動的に調整し、様々なレベルの粒度で特徴を学習するモデルのニーズを満たす。
さらに,各クラスの平均信頼度を統計的に計算し,分散ペナルティ項を組み込んで選択閾値を動的に調整する,独自の可変フィードバック平滑化閾値(VFST)戦略を提案する。
この戦略は擬似ラベルの品質を改善し、潜在的に有効なラベルを明らかにし、ドメインバイアスを軽減する。
広汎な実験は、悪環境下でのUAV物体検出における提案したSF-TMATの優位性と一般化能力を示す。
コードはhttps://github.com/ChenHuyooで公開されている。
関連論文リスト
- CLDA-YOLO: Visual Contrastive Learning Based Domain Adaptive YOLO Detector [10.419327930845922]
非教師付きドメイン適応(UDA)アルゴリズムは、ドメインシフトの条件下でオブジェクト検出器の性能を著しく向上させることができる。
視覚コントラスト学習(CLDA-YOLO)に基づく教師なし領域適応型YOLO検出器を提案する。
論文 参考訳(メタデータ) (2024-12-16T14:25:52Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Mean Teacher DETR with Masked Feature Alignment: A Robust Domain
Adaptive Detection Transformer Framework [41.998727427261734]
平均教師に基づく2段階特徴アライメント法は、事前訓練段階と自己学習段階とからなる。
事前訓練段階では,画像スタイルの転送によって生成されたラベル付きターゲットライクな画像を用いて,性能変動を回避する。
自己学習の段階では、平均教師に基づく擬似ラベルによるラベル付き対象画像を活用する。
論文 参考訳(メタデータ) (2023-10-24T09:07:47Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - UDA-COPE: Unsupervised Domain Adaptation for Category-level Object Pose
Estimation [84.16372642822495]
我々は、textbfUDA-COPEと呼ばれるカテゴリレベルのオブジェクトポーズ推定のための教師なしドメイン適応(UDA)を提案する。
近年のマルチモーダルなUDA手法に触発された提案手法は,教師が指導する自己教師型学習手法を利用して,ターゲットドメインラベルを使わずにポーズ推定ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-11-24T16:00:48Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。