論文の概要: Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision
- arxiv url: http://arxiv.org/abs/2507.20976v1
- Date: Mon, 28 Jul 2025 16:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.210172
- Title: Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision
- Title(参考訳): 航空画像用車両検出器の弱監視領域への適応
- Authors: Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre,
- Abstract要約: 本稿では,高品質な空中画像とそのラベルを生成AIで合成する手法を提案する。
私たちの重要な貢献は、多段階のマルチモーダルな知識伝達フレームワークの開発です。
- 参考スコア(独自算出の注目度): 46.87579355047397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting vehicles in aerial imagery is a critical task with applications in traffic monitoring, urban planning, and defense intelligence. Deep learning methods have provided state-of-the-art (SOTA) results for this application. However, a significant challenge arises when models trained on data from one geographic region fail to generalize effectively to other areas. Variability in factors such as environmental conditions, urban layouts, road networks, vehicle types, and image acquisition parameters (e.g., resolution, lighting, and angle) leads to domain shifts that degrade model performance. This paper proposes a novel method that uses generative AI to synthesize high-quality aerial images and their labels, improving detector training through data augmentation. Our key contribution is the development of a multi-stage, multi-modal knowledge transfer framework utilizing fine-tuned latent diffusion models (LDMs) to mitigate the distribution gap between the source and target environments. Extensive experiments across diverse aerial imagery domains show consistent performance improvements in AP50 over supervised learning on source domain data, weakly supervised adaptation methods, unsupervised domain adaptation methods, and open-set object detectors by 4-23%, 6-10%, 7-40%, and more than 50%, respectively. Furthermore, we introduce two newly annotated aerial datasets from New Zealand and Utah to support further research in this field. Project page is available at: https://humansensinglab.github.io/AGenDA
- Abstract(参考訳): 航空画像における車両の検出は、交通監視、都市計画、防衛情報などの分野で重要な課題である。
ディープラーニング手法は、このアプリケーションに最先端(SOTA)結果を提供する。
しかし、ある地理的領域のデータに基づいて訓練されたモデルが、他の領域に効果的に一般化できない場合、大きな課題が生じる。
環境条件、都市レイアウト、道路ネットワーク、車両タイプ、画像取得パラメータ(解像度、照明、角度など)などの要因の変動は、モデルの性能を低下させるドメインシフトをもたらす。
本稿では、生成AIを用いて高品質な空中画像とそのラベルを合成し、データ拡張による検出器訓練を改善する手法を提案する。
我々の重要な貢献は、微調整潜在拡散モデル(LDM)を利用して、ソースとターゲット環境間の分散ギャップを軽減する多段階多モード知識伝達フレームワークの開発である。
多様な航空画像領域にわたる大規模な実験は、ソースドメインデータの教師付き学習、弱教師付き適応法、教師なしドメイン適応法、オープンセットオブジェクト検出器をそれぞれ4-23%、6-10%、7-40%、7-40%、50%以上の性能改善を示す。
さらに,ニュージーランドとユタ州から新たに2つのアノテートされた航空データセットを導入し,この分野のさらなる研究を支援する。
プロジェクトページは、https://humansensinglab.github.io/AGenDAで公開されている。
関連論文リスト
- Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。
それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。
以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T01:17:27Z) - Radio Map Prediction from Aerial Images and Application to Coverage Optimization [46.870065000932016]
畳み込みニューラルネットワークを用いた経路損失無線マップの予測に着目する。
既存の無線地図データセットに対して開発された最先端モデルがこの課題に効果的に適応できることを示す。
UNetDCNと呼ばれる新しいモデルを導入し、複雑さを低減した最先端モデルと比較して、同等以上の性能を実現した。
論文 参考訳(メタデータ) (2024-10-07T09:19:20Z) - Quanv4EO: Empowering Earth Observation by means of Quanvolutional Neural Networks [62.12107686529827]
本稿は、大量のリモートセンシングデータの処理において、量子コンピューティング技術を活用することへの大きなシフトを取り上げる。
提案したQuanv4EOモデルでは,多次元EOデータを前処理するための準進化法が導入された。
主要な知見は,提案モデルが画像分類の精度を維持するだけでなく,EOのユースケースの約5%の精度向上を図っていることを示唆している。
論文 参考訳(メタデータ) (2024-07-24T09:11:34Z) - Enhancing Visual Domain Adaptation with Source Preparation [5.287588907230967]
ドメイン適応技術は、ソースドメイン自体の特性を考慮できません。
本稿では,ソース領域バイアスを軽減する手法であるソース準備(SP)を提案する。
また,ベースライン上のmIoUでは最大40.64%の改善が見られた。
論文 参考訳(メタデータ) (2023-06-16T18:56:44Z) - Analysis and Adaptation of YOLOv4 for Object Detection in Aerial Images [0.0]
本研究は,空中画像中の物体とその位置を予測するためのYOLOv4フレームワークの適応性を示す。
トレーニングされたモデルは平均的な平均精度(mAP)が45.64%となり、推論速度はTesla K80 GPUで8.7FPSに達した。
いくつかの現代の空中物体検出器との比較研究により、YOLOv4はより優れた性能を示し、航空プラットフォームに組み込むのにより適した検出アルゴリズムが示唆された。
論文 参考訳(メタデータ) (2022-03-18T23:51:09Z) - Adaptive Path Planning for UAVs for Multi-Resolution Semantic
Segmentation [28.104584236205405]
重要な課題は、大規模な環境で取得したデータの価値を最大化するミッションを計画することである。
これは例えば、農地のモニタリングに関係している。
本稿では,UAV経路に適応して高精細なセマンティックセマンティックセマンティクスを得るオンライン計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-03T11:03:28Z) - Rethinking Drone-Based Search and Rescue with Aerial Person Detection [79.76669658740902]
航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。
本稿では,この空中人物検出(APD)タスクを自動化するための新しいディープラーニングアルゴリズムを提案する。
本稿では,Aerial Inspection RetinaNet (AIR) アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-11-17T21:48:31Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。