論文の概要: Visual Prototype Conditioned Focal Region Generation for UAV-Based Object Detection
- arxiv url: http://arxiv.org/abs/2604.02966v1
- Date: Fri, 03 Apr 2026 11:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.454022
- Title: Visual Prototype Conditioned Focal Region Generation for UAV-Based Object Detection
- Title(参考訳): UAVに基づく物体検出のための視覚プロトタイプ条件付き焦点領域生成
- Authors: Wenhao Li, Zimeng Wu, Yu Wu, Zehua Fu, Jiaxin Chen,
- Abstract要約: 無人航空機(UAV)に基づく物体検出は、限られた注釈付きトレーニングデータで動的に変化するシナリオに適用する場合、重要ではあるが困難な課題である。
UAVに基づくオブジェクト検出に適した新しいレイアウト・ツー・イメージ生成フレームワークであるUAVGenを提案する。
本手法は最先端の手法を著しく上回り、異なる検出器と統合した場合の精度を一貫して向上させる。
- 参考スコア(独自算出の注目度): 23.097895224926905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicle (UAV) based object detection is a critical but challenging task, when applied in dynamically changing scenarios with limited annotated training data. Layout-to-image generation approaches have proved effective in promoting detection accuracy by synthesizing labeled images based on diffusion models. However, they suffer from frequently producing artifacts, especially near layout boundaries of tiny objects, thus substantially limiting their performance. To address these issues, we propose UAVGen, a novel layout-to-image generation framework tailored for UAV-based object detection. Specifically, UAVGen designs a Visual Prototype Conditioned Diffusion Model (VPC-DM) that constructs representative instances for each class and integrates them into latent embeddings for high-fidelity object generation. Moreover, a Focal Region Enhanced Data Pipeline (FRE-DP) is introduced to emphasize object-concentrated foreground regions in synthesis, combined with a label refinement to correct missing, extra and misaligned generations. Extensive experimental results demonstrate that our method significantly outperforms state-of-the-art approaches, and consistently promotes accuracy when integrated with distinct detectors. The source code is available at https://github.com/Sirius-Li/UAVGen.
- Abstract(参考訳): 無人航空機(UAV)に基づく物体検出は、限られた注釈付きトレーニングデータで動的に変化するシナリオに適用する場合、重要ではあるが困難な課題である。
遅延画像生成手法は拡散モデルに基づくラベル付き画像の合成による検出精度の向上に有効であることが証明された。
しかし、これらは、特に小さなオブジェクトのレイアウト境界付近で頻繁にアーティファクトを生成し、パフォーマンスを著しく制限する。
これらの問題に対処するため,UAVに基づくオブジェクト検出に適した新しいレイアウト・イメージ生成フレームワークであるUAVGenを提案する。
具体的には、UAVGenは視覚プロトタイプ条件付き拡散モデル(VPC-DM)を設計し、各クラスの代表インスタンスを構築し、それらを高忠実度オブジェクト生成のための潜時埋め込みに統合する。
さらに、FRE-DP(Focal Region Enhanced Data Pipeline)を導入し、オブジェクト集中型フォアグラウンド領域の合成を強調する。
実験結果から,本手法は最先端の手法よりも優れており,異なる検出器と一体化した場合の精度が一貫して向上することが示唆された。
ソースコードはhttps://github.com/Sirius-Li/UAVGen.comで入手できる。
関連論文リスト
- Coarse-to-Fine Hierarchical Alignment for UAV-based Human Detection using Diffusion Models [14.696438400081114]
本稿では,UAVに基づく人体検出のための合成データを変換するための3段階拡散型フレームワークを提案する。
Cwdはグローバルなスタイルとローカルなコンテンツドメインの相違を明確に分離し、3つのモジュールを使ってそれらのギャップを埋める。
提案手法は,Semantic-DroneベンチマークでmAP50を最大14.1ドルで改善する。
論文 参考訳(メタデータ) (2025-12-15T19:57:36Z) - Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - InstaGen: Enhancing Object Detection by Training on Synthetic Dataset [59.445498550159755]
本稿では,オブジェクト検出機能の向上,例えばカテゴリ拡大や検出性能の向上など,新たなパラダイムを提案する。
我々は、インスタンスレベルのグラウンドヘッドを事前訓練された生成拡散モデルに統合し、生成された画像のインスタンスをローカライズする機能で拡張する。
我々は、InstaGenと呼ばれる拡散モデルの強化版がデータシンセサイザーとして機能することを示すために、徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-08T18:59:53Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。