論文の概要: PanoAir: A Panoramic Visual-Inertial SLAM with Cross-Time Real-World UAV Dataset
- arxiv url: http://arxiv.org/abs/2604.00852v1
- Date: Wed, 01 Apr 2026 13:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.995414
- Title: PanoAir: A Panoramic Visual-Inertial SLAM with Cross-Time Real-World UAV Dataset
- Title(参考訳): PanoAir: リアルタイムUAVデータセットを備えたパノラマ型ビジュアル慣性SLAM
- Authors: Yiyang Wu, Xiaohu Zhang, Yanjin Du, Tongsu Zhang, Chujun Li, Siyang Chen, Guoyi Zhang, Xiangpeng Xu,
- Abstract要約: 既存のVisual-Inertial SLAM法は視野が限られたセンサーに依存している。
全方位FoVを利用するパノラマVI-SLAMフレームワークを提案する。
本手法は既存の手法に比べて精度,堅牢性,一貫性に優れる。
- 参考スコア(独自算出の注目度): 3.1200868230538803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate pose estimation is fundamental for unmanned aerial vehicle (UAV) applications, where Visual-Inertial SLAM (VI-SLAM) provides a cost-effective solution for localization and mapping. However, existing VI-SLAM methods mainly rely on sensors with limited fields of view (FoV), which can lead to drift and even failure in complex UAV scenarios. Although panoramic cameras provide omnidirectional perception to improve robustness, panoramic VI-SLAM and corresponding real-world datasets for UAVs remain underexplored. To address this limitation, we first construct a real-world panoramic visual-inertial dataset covering diverse flight conditions, including varying illumination, altitudes, trajectory lengths, and motion dynamics. To achieve accurate and robust pose estimation under such challenging UAV scenarios, we propose a panoramic VI-SLAM framework that exploits the omnidirectional FoV via the proposed panoramic feature extraction and panoramic loop closure, enhancing feature constraints and ensuring global consistency. Extensive experiments on both the proposed dataset and public benchmarks demonstrate that our method achieves superior accuracy, robustness, and consistency compared to existing approaches. Moreover, deployment on embedded platform validates its practical applicability, achieving comparable computational efficiency to PC implementations. The source code and dataset are publicly available at https://drive.google.com/file/d/1lG1Upn6yi-N6tYpEHAt6dfR1uhzNtWbT/view
- Abstract(参考訳): Visual-Inertial SLAM (VI-SLAM) がローカライズとマッピングのためのコスト効率の良いソリューションを提供する無人航空機(UAV)アプリケーションには、正確なポーズ推定が不可欠である。
しかし、既存のVI-SLAM法は主に視野の限られたセンサー(FoV)に依存しており、複雑なUAVのシナリオでドリフトや故障を招きかねない。
パノラマカメラは、ロバスト性を改善するために全方向の知覚を提供するが、パノラマVI-SLAMとそれに対応するUAVの実際のデータセットは未調査のままである。
この制限に対処するために、我々はまず、様々な照明、高度、軌道長、運動力学を含む様々な飛行条件をカバーする現実世界のパノラマ画像慣性データセットを構築した。
このような挑戦的なUAVシナリオ下での高精度でロバストなポーズ推定を実現するために,パノラマ特徴抽出とパノラマループ閉鎖により全方位FoVを利用するパノラマVI-SLAMフレームワークを提案する。
提案手法は,既存手法と比較して精度,堅牢性,一貫性に優れることを示した。
さらに、組み込みプラットフォームへのデプロイは、PC実装に匹敵する計算効率を達成し、その実用性を検証する。
ソースコードとデータセットはhttps://drive.google.com/file/d/1lG1Upn6yi-N6tYpEHAt6dfR1uhzNtWbT/viewで公開されている。
関連論文リスト
- Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation [51.286599397552756]
本稿では,UAVの絶対位置と近距離からの進路を共同で予測する視覚駆動型クロスビューナビゲーション手法であるBering-UAVを提案する。
我々はまた、クロスビューのローカライゼーションとナビゲーションを評価するベンチマークである Bearing-UAV-90k も提示する。
論文 参考訳(メタデータ) (2026-03-23T16:17:39Z) - Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning [5.517595398768408]
本稿では,エゴ単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。
このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2025-12-09T14:25:24Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - InCrowd-VI: A Realistic Visual-Inertial Dataset for Evaluating SLAM in Indoor Pedestrian-Rich Spaces for Human Navigation [2.184775414778289]
InCrowd-VIは、屋内の歩行者の多い環境での人間のナビゲーションに特化したビジュアル慣性データセットである。
RGB、ステレオ画像、IMU測定など、合計5kmの軌道長と1.5時間の記録時間を含む58のシーケンスが特徴である。
このデータセットはMeta Ariaプロジェクトマシン認識SLAMサービスに由来する。
論文 参考訳(メタデータ) (2024-11-21T17:58:07Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - DMRVisNet: Deep Multi-head Regression Network for Pixel-wise Visibility
Estimation Under Foggy Weather [0.0]
霧は、一般的な気象の一種として、特に山岳地帯において、現実世界に頻繁に現れる。
現在の方法では、道路上の固定位置に配置されたプロの楽器を使用して視界測定を行う。
可視性を推定するために、革新的なエンドツーエンドの畳み込みニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T13:31:07Z) - Multi-View Fusion of Sensor Data for Improved Perception and Prediction
in Autonomous Driving [11.312620949473938]
本稿では,LiDARとカメラ画像の多視点表現を用いた物体検出と軌跡予測のエンドツーエンド手法を提案する。
我々のモデルは最先端のBird's-Eye View(BEV)ネットワーク上に構築され、歴史的なLiDARデータからボキセル化された特徴を融合する。
我々は、このモデルを、ネイティブな非量子化表現で生のLiDAR情報を使用する追加のLiDAR Range-View (RV)機能で拡張する。
論文 参考訳(メタデータ) (2020-08-27T03:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。