論文の概要: Coarse-to-Fine Hierarchical Alignment for UAV-based Human Detection using Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.13869v1
- Date: Mon, 15 Dec 2025 19:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.477065
- Title: Coarse-to-Fine Hierarchical Alignment for UAV-based Human Detection using Diffusion Models
- Title(参考訳): 拡散モデルを用いたUAVによる人体検出のための粗い階層的アライメント
- Authors: Wenda Li, Meng Wu, Sungmin Eum, Heesung Kwon, Qing Qu,
- Abstract要約: 本稿では,UAVに基づく人体検出のための合成データを変換するための3段階拡散型フレームワークを提案する。
Cwdはグローバルなスタイルとローカルなコンテンツドメインの相違を明確に分離し、3つのモジュールを使ってそれらのギャップを埋める。
提案手法は,Semantic-DroneベンチマークでmAP50を最大14.1ドルで改善する。
- 参考スコア(独自算出の注目度): 14.696438400081114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training object detectors demands extensive, task-specific annotations, yet this requirement becomes impractical in UAV-based human detection due to constantly shifting target distributions and the scarcity of labeled images. As a remedy, synthetic simulators are adopted to generate annotated data, with a low annotation cost. However, the domain gap between synthetic and real images hinders the model from being effectively applied to the target domain. Accordingly, we introduce Coarse-to-Fine Hierarchical Alignment (CFHA), a three-stage diffusion-based framework designed to transform synthetic data for UAV-based human detection, narrowing the domain gap while preserving the original synthetic labels. CFHA explicitly decouples global style and local content domain discrepancies and bridges those gaps using three modules: (1) Global Style Transfer -- a diffusion model aligns color, illumination, and texture statistics of synthetic images to the realistic style, using only a small real reference set; (2) Local Refinement -- a super-resolution diffusion model is used to facilitate fine-grained and photorealistic details for the small objects, such as human instances, preserving shape and boundary integrity; (3) Hallucination Removal -- a module that filters out human instances whose visual attributes do not align with real-world data to make the human appearance closer to the target distribution. Extensive experiments on public UAV Sim2Real detection benchmarks demonstrate that our methods significantly improve the detection accuracy compared to the non-transformed baselines. Specifically, our method achieves up to $+14.1$ improvement of mAP50 on Semantic-Drone benchmark. Ablation studies confirm the complementary roles of the global and local stages and highlight the importance of hierarchical alignment. The code is released at \href{https://github.com/liwd190019/CFHA}{this url}.
- Abstract(参考訳): 訓練対象検出器は、広範囲なタスク固有のアノテーションを必要とするが、この要件は、常に標的分布がシフトし、ラベル付き画像が不足しているために、UAVベースの人間の検出では実用的ではない。
補助として、アノテーションコストの低いアノテートデータを生成するために、合成シミュレータが採用されている。
しかし、合成画像と実画像の領域ギャップは、モデルがターゲット領域に効果的に適用されることを妨げる。
そこで我々は,UAVに基づく人体検出のための合成データを変換し,元の合成ラベルを保存しながら領域間隙を狭める3段階拡散に基づくフレームワークであるCarse-to-Fine Hierarchical Alignment (CFHA)を紹介した。
CFHAは、グローバルなスタイルとローカルなコンテンツドメインの相違を明示的に分離し、3つのモジュールでそれらのギャップを埋める: 1)グローバルスタイル転送 - 拡散モデル - 合成画像の色、照明、テクスチャの統計を、小さなリファレンスセットのみを使用してリアルなスタイルに整合させる (2) 局所再定義 - 人間のインスタンス、形状、境界の整合性を保存する、(3) 幻覚除去 - 視覚特性が実際のデータと一致しない人間のインスタンスを、ターゲットの分布に近づけるためにフィルタリングするモジュール。
パブリックUAV Sim2Real検出ベンチマークの大規模な実験により, 提案手法は非変換ベースラインに比べて検出精度を著しく向上することが示された。
具体的には,Semantic-DroneベンチマークでmAP50を最大14.1ドルで改善する。
アブレーション研究は、グローバルステージとローカルステージの相補的な役割を確認し、階層的アライメントの重要性を強調している。
コードは \href{https://github.com/liwd190019/CFHA}{this url} で公開されている。
関連論文リスト
- Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - Style Transfer with Diffusion Models for Synthetic-to-Real Domain Adaptation [3.7051961231919393]
拡散モデルを用いた意味論的一貫したスタイル伝達のための2つの新しい手法を提案する。
GTA5をソースとして,Cityscapes/ACDCをターゲットドメインとして実験したところ,FIDスコアが低く,コンテンツ保存性が向上した高品質な画像が得られた。
論文 参考訳(メタデータ) (2025-05-22T08:11:10Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - SF-FSDA: Source-Free Few-Shot Domain Adaptive Object Detection with
Efficient Labeled Data Factory [94.11898696478683]
ドメイン適応オブジェクト検出は、ラベル付きソースドメインから学んだ知識を活用し、ラベルなしのターゲットドメインのパフォーマンスを改善することを目的としています。
本研究では,SF-FSDA という名称のソースフリーおよび少数ショット条件下で,より実用的で困難な領域適応型オブジェクト検出問題を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T12:34:55Z) - Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。
提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。
本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:15:03Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - Alleviating Semantic-level Shift: A Semi-supervised Domain Adaptation
Method for Semantic Segmentation [97.8552697905657]
このタスクの重要な課題は、ソースとターゲットドメイン間のデータ分散の相違を緩和する方法である。
本稿では,グローバルな視点とローカルな視点の両方から分布の整合性を促進できるASS(Alleviating Semantic-level Shift)を提案する。
GTA5、Cityscapes、Synthia、Cityscapesの2つのドメイン適応タスクにASSを適用します。
論文 参考訳(メタデータ) (2020-04-02T03:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。