論文の概要: OccuFly: A 3D Vision Benchmark for Semantic Scene Completion from the Aerial Perspective
- arxiv url: http://arxiv.org/abs/2512.20770v1
- Date: Tue, 23 Dec 2025 21:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.599059
- Title: OccuFly: A 3D Vision Benchmark for Semantic Scene Completion from the Aerial Perspective
- Title(参考訳): OccuFly: 航空からのセマンティックシーン補完のための3次元視覚ベンチマーク
- Authors: Markus Gross, Sai B. Matha, Aya Fahmy, Rui Song, Daniel Cremers, Henri Meess,
- Abstract要約: OccuFlyは、50m、40m、30mの高度で撮影される、世界初の実世界のカメラベースの空中セマンティックシーン補完ベンチマークである。
本稿では,カメラのモダリティに基づくLiDARフリーなデータ生成フレームワークを提案する。
我々はOccuFlyの最先端をベンチマークし、高い視点に特有な課題を強調します。
- 参考スコア(独自算出の注目度): 44.84496929237721
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic Scene Completion (SSC) is crucial for 3D perception in mobile robotics, as it enables holistic scene understanding by jointly estimating dense volumetric occupancy and per-voxel semantics. Although SSC has been widely studied in terrestrial domains such as autonomous driving, aerial scenarios like autonomous flying remain largely unexplored, thereby limiting progress on downstream applications. Furthermore, LiDAR sensors represent the primary modality for SSC data generation, which poses challenges for most uncrewed aerial vehicles (UAVs) due to flight regulations, mass and energy constraints, and the sparsity of LiDAR-based point clouds from elevated viewpoints. To address these limitations, we introduce OccuFly, the first real-world, camera-based aerial SSC benchmark, captured at altitudes of 50m, 40m, and 30m during spring, summer, fall, and winter. OccuFly covers urban, industrial, and rural scenarios, provides 22 semantic classes, and the data format adheres to established conventions to facilitate seamless integration with existing research. Crucially, we propose a LiDAR-free data generation framework based on camera modality, which is ubiquitous on modern UAVs. By utilizing traditional 3D reconstruction, our framework automates label transfer by lifting a subset of annotated 2D masks into the reconstructed point cloud, thereby substantially minimizing manual 3D annotation effort. Finally, we benchmark the state-of-the-art on OccuFly and highlight challenges specific to elevated viewpoints, yielding a comprehensive vision benchmark for holistic aerial 3D scene understanding.
- Abstract(参考訳): セマンティック・シーン・コンプリート(SSC)は,高密度体積占有度とボクセル・セマンティクスを共同で推定することにより,総合的なシーン理解を可能にするため,移動ロボットの3次元知覚に不可欠である。
SSCは、自律走行のような地球上の領域で広く研究されているが、自律飛行のような航空シナリオはほとんど探索されていないため、下流のアプリケーションでは進歩が制限されている。
さらに、LiDARセンサーは、飛行規制、質量とエネルギーの制約、高度の視点からLiDARベースの点雲の空間性により、ほとんどの無人航空機(UAV)に課題をもたらすSSCデータ生成の主要なモダリティを表現している。
これらの制限に対処するため、春、夏、秋、冬の間に50m、40m、30mの高度で撮影される、世界初の実世界のカメラベースの空中SSCベンチマークであるOccuFlyを紹介します。
OccuFlyは都市、工業、農村のシナリオをカバーし、22のセマンティッククラスを提供している。
重要なことは、現代のUAVで広く使われているカメラモダリティに基づくLiDARフリーなデータ生成フレームワークを提案する。
従来の3D再構成を利用して,アノテートされた2Dマスクのサブセットを再構成点クラウドに持ち上げてラベル転送を自動化し,手動3Dアノテーションの作業を大幅に最小化する。
最後に,OccuFlyの最先端をベンチマークし,高度の視点に特有な課題を強調し,総合的空中3Dシーン理解のための総合的な視覚ベンチマークを作成した。
関連論文リスト
- UAV-MM3D: A Large-Scale Synthetic Benchmark for 3D Perception of Unmanned Aerial Vehicles with Multi-Modal Data [47.317955428393134]
UAV-MM3Dは,低高度UAV知覚と動作理解のための多モード合成データセットである。
様々なシーン(都市部、郊外部、森林部、沿岸部)と気象条件にまたがる400Kの同期フレームで構成されている。
各フレームは2D/3Dバウンディングボックス、6-DoFのポーズ、インスタンスレベルのアノテーションを提供し、3D検出、ポーズ推定、ターゲット追跡、短期軌道予測などのUAVに関連するコアタスクを可能にする。
論文 参考訳(メタデータ) (2025-11-27T12:30:28Z) - ShelfOcc: Native 3D Supervision beyond LiDAR for Vision-Based Occupancy Estimation [9.977834471775816]
我々は、LiDARに頼ることなく制限を克服する、視覚のみのShelfOccを紹介した。
ShelfOccは、ビデオからメートル法的に一貫したセマンティックなボクセルラベルを生成することで、ネイティブな3D空間を監督する。
本手法では,フレーム間の静的な幾何を一貫したフィルタリングと蓄積により,これらの問題を緩和する専用フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-19T12:44:13Z) - Neural 3D Object Reconstruction with Small-Scale Unmanned Aerial Vehicles [16.745245388756533]
小型無人航空機(UAV)は、屋内と難航地域を航行する大きな可能性を秘めている。
本稿では,100グラム以下のUAVを用いた静的物体の完全自律・高忠実な3次元走査を可能にするシステムアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-15T21:08:32Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - S3MOT: Monocular 3D Object Tracking with Selective State Space Model [3.5047603107971397]
3次元空間における多物体追跡は、ロボット工学とコンピュータ応用の進歩に不可欠である。
2Dビデオストリームからの3Dアソシエーションのマイニングが難しいため、モノラルなセットアップでは依然として大きな課題である。
モノクローナル3次元MOTのための不均一なキューの融合を促進するための3つの革新的な技術を提案する。
論文 参考訳(メタデータ) (2025-04-25T04:45:35Z) - SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving [87.8761593366609]
SSCBenchは、広く使用されている自動車データセットのシーンを統合するベンチマークである。
我々は、単眼、三眼、クラウド入力を用いて、性能ギャップを評価するモデルをベンチマークする。
クロスドメインの一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
論文 参考訳(メタデータ) (2023-06-15T09:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。