論文の概要: VisLanding: Monocular 3D Perception for UAV Safe Landing via Depth-Normal Synergy
- arxiv url: http://arxiv.org/abs/2506.14525v1
- Date: Tue, 17 Jun 2025 13:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.496391
- Title: VisLanding: Monocular 3D Perception for UAV Safe Landing via Depth-Normal Synergy
- Title(参考訳): VisLanding:深度ノルマル相乗効果によるUAV安全着陸のための単眼3D認識
- Authors: Zhuoyue Tan, Boyong He, Yuxiang Ji, Liaoni Wu,
- Abstract要約: VisLandingは、無人航空機(Unmanned Aerial Vehicle)の安全な着陸のための知覚ベースのフレームワークである。
提案手法は, クロスドメインテストにおいて, 他の手法と比較して優れた一般化とロバスト性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents VisLanding, a monocular 3D perception-based framework for safe UAV (Unmanned Aerial Vehicle) landing. Addressing the core challenge of autonomous UAV landing in complex and unknown environments, this study innovatively leverages the depth-normal synergy prediction capabilities of the Metric3D V2 model to construct an end-to-end safe landing zones (SLZ) estimation framework. By introducing a safe zone segmentation branch, we transform the landing zone estimation task into a binary semantic segmentation problem. The model is fine-tuned and annotated using the WildUAV dataset from a UAV perspective, while a cross-domain evaluation dataset is constructed to validate the model's robustness. Experimental results demonstrate that VisLanding significantly enhances the accuracy of safe zone identification through a depth-normal joint optimization mechanism, while retaining the zero-shot generalization advantages of Metric3D V2. The proposed method exhibits superior generalization and robustness in cross-domain testing compared to other approaches. Furthermore, it enables the estimation of landing zone area by integrating predicted depth and normal information, providing critical decision-making support for practical applications.
- Abstract(参考訳): 本稿では,無人航空機着陸のための単眼3D認識フレームワークVisLandingについて述べる。
複雑で未知の環境での無人無人着陸の課題に対処するため,この研究では,Metric3D V2モデルの深度-正常な相乗効果予測機能を革新的に活用して,エンド・ツー・エンド・セーフ・ランディングゾーン(SLZ)推定フレームワークを構築した。
安全なゾーンセグメンテーションブランチを導入することにより、ランディングゾーン推定タスクをバイナリセグメンテーション問題に変換する。
モデルは、UAVの観点からWildUAVデータセットを使用して微調整され、注釈付けされ、一方、モデルの堅牢性を検証するために、クロスドメイン評価データセットが構築される。
実験結果から,VisLandingはMetric3D V2のゼロショット一般化の利点を保ちながら,奥行き正規結合最適化機構による安全なゾーン識別の精度を著しく向上することが示された。
提案手法は, クロスドメインテストにおいて, 他の手法と比較して優れた一般化とロバスト性を示す。
さらに、予測深度と正規情報を統合することで、着地域面積の推定を可能にし、実用上重要な意思決定支援を提供する。
関連論文リスト
- MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。
検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。
提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-01T04:37:13Z) - Unsupervised UAV 3D Trajectories Estimation with Sparse Point Clouds [18.48877348628721]
本稿では,時空間シーケンス処理を用いたコスト効率,教師なしUAV検出手法を提案する。
CVPR 2024 UG2+ Challengeの4位にランクインした。
我々は、研究コミュニティ.com/lianghanfang/UnLiDAR-UAV-Estのすべての設計、コード、サンプルデータをオープンソース化する予定です。
論文 参考訳(メタデータ) (2024-12-17T09:30:31Z) - FuzzRisk: Online Collision Risk Estimation for Autonomous Vehicles based on Depth-Aware Object Detection via Fuzzy Inference [6.856508678236828]
このフレームワークは異なるアルゴリズムから2組の予測を受け取り、不整合とファジィ推論による衝突リスクを関連付ける。
IoU(Intersection-over-Union)と深度差測定(deep discrepancy measure)に基づいて,2組の予測の不一致が3次元物体検出器の誤差と強く相関していることを実験的に検証した。
AV衝突率によく一致する既存のオフラインメトリックに対してファジィ推論システムを最適化する。
論文 参考訳(メタデータ) (2024-11-09T20:20:36Z) - TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定から距離深度を求めるための実用的スケール回復手法であるTanDepthを提示する。
提案手法は,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスフィルタシミュレーションへの適応を示す。
論文 参考訳(メタデータ) (2024-09-08T15:54:43Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Trajectory Design for UAV-Based Internet-of-Things Data Collection: A
Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。
本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。
シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文 参考訳(メタデータ) (2021-07-23T03:33:29Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。