論文の概要: DroneKey: Drone 3D Pose Estimation in Image Sequences using Gated Key-representation and Pose-adaptive Learning
- arxiv url: http://arxiv.org/abs/2508.17746v1
- Date: Mon, 25 Aug 2025 07:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.676322
- Title: DroneKey: Drone 3D Pose Estimation in Image Sequences using Gated Key-representation and Pose-adaptive Learning
- Title(参考訳): DroneKey: Gated Key-Representation と Pose-Adaptive Learning を用いた画像系列におけるドローンの3D Pose推定
- Authors: Seo-Bin Hwang, Yeong-Jun Cho,
- Abstract要約: DroneKeyは、2Dキーポイント検出器とドローン用に設計された3Dポーズ推定器を組み合わせたフレームワークだ。
実験により,本手法はキーポイント検出において99.68%(OKS)のAPを達成し,既存手法より優れていることが示された。
3次元ポーズ推定では10.62degのMAE角,0.221mのRMSE,0.076mのMAE絶対値を得た。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Estimating the 3D pose of a drone is important for anti-drone systems, but existing methods struggle with the unique challenges of drone keypoint detection. Drone propellers serve as keypoints but are difficult to detect due to their high visual similarity and diversity of poses. To address these challenges, we propose DroneKey, a framework that combines a 2D keypoint detector and a 3D pose estimator specifically designed for drones. In the keypoint detection stage, we extract two key-representations (intermediate and compact) from each transformer encoder layer and optimally combine them using a gated sum. We also introduce a pose-adaptive Mahalanobis distance in the loss function to ensure stable keypoint predictions across extreme poses. We built new datasets of drone 2D keypoints and 3D pose to train and evaluate our method, which have been publicly released. Experiments show that our method achieves an AP of 99.68% (OKS) in keypoint detection, outperforming existing methods. Ablation studies confirm that the pose-adaptive Mahalanobis loss function improves keypoint prediction stability and accuracy. Additionally, improvements in the encoder design enable real-time processing at 44 FPS. For 3D pose estimation, our method achieved an MAE-angle of 10.62{\deg}, an RMSE of 0.221m, and an MAE-absolute of 0.076m, demonstrating high accuracy and reliability. The code and dataset are available at https://github.com/kkanuseobin/DroneKey.
- Abstract(参考訳): ドローンの3Dポーズを推定することは、対ドローンシステムにとって重要であるが、既存の方法では、ドローンのキーポイント検出というユニークな課題に苦労している。
ドローンプロペラはキーポイントとして機能するが、高い視覚的類似性とポーズの多様性のために検出が難しい。
これらの課題に対処するため、DroneKeyは、2Dキーポイント検出器とドローン用に特別に設計された3Dポーズ推定器を組み合わせたフレームワークである。
キーポイント検出段階では、各トランスエンコーダ層から2つのキー表現(中間およびコンパクト)を抽出し、ゲート和を用いて最適に組み合わせる。
また、極端ポーズにおける安定なキーポイント予測を保証するために、損失関数にポーズ適応型マハラノビス距離を導入する。
ドローン2Dキーポイントと3Dポーズの新しいデータセットを構築して,我々の手法をトレーニングし,評価した。
実験により,本手法はキーポイント検出において99.68%(OKS)のAPを達成し,既存手法より優れていることが示された。
アブレーション研究は、ポーズ適応型マハラノビス損失関数がキーポイント予測安定性と精度を向上させることを確認した。
さらに、エンコーダ設計の改善により、44 FPSでリアルタイム処理が可能になった。
3次元ポーズ推定では10.62{\degのMAE角,0.221mのRMSE,0.076mのMAE絶対値を得た。
コードとデータセットはhttps://github.com/kkanuseobin/DroneKeyで公開されている。
関連論文リスト
- Accelerate 3D Object Detection Models via Zero-Shot Attention Key Pruning [15.40654753734657]
3次元オブジェクト検出モデルにおけるトランスフォーマーデコーダのゼロショット実行時プルーニング法を提案する。
提案手法は,ToC3Dモデルのトランスデコーダにおける1.99倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-03-11T07:03:28Z) - CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - C2FDrone: Coarse-to-Fine Drone-to-Drone Detection using Vision Transformer Networks [23.133250476580038]
衝突回避、敵のドローン対策、捜索救助活動など、さまざまな用途において、視覚に基づくドローンからドローンまでの検出システムは不可欠である。
ドローンの検出には、小さなオブジェクトのサイズ、歪み、リアルタイム処理要求など、ユニークな課題がある。
本稿では,視覚変換器に基づく粗大な検出手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T05:51:21Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - Is Pseudo-Lidar needed for Monocular 3D Object detection? [32.772699246216774]
我々は,擬似ライダー法のような深度事前学習の恩恵を受けることができるエンド・ツー・エンドの単分子3次元物体検出器DD3Dを提案する。
我々のアーキテクチャは、深度推定と3次元検出の効果的な情報伝達のために設計されており、ラベルなし事前学習データの量でスケールすることができる。
論文 参考訳(メタデータ) (2021-08-13T22:22:51Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。