Fugu-MT 論文翻訳(概要): AirZoo: A Unified Large-Scale Dataset for Grounding Aerial Geometric 3D Vision

論文の概要: AirZoo: A Unified Large-Scale Dataset for Grounding Aerial Geometric 3D Vision

arxiv url: http://arxiv.org/abs/2604.26567v1
Date: Wed, 29 Apr 2026 11:52:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-30 15:59:36.380161
Title: AirZoo: A Unified Large-Scale Dataset for Grounding Aerial Geometric 3D Vision
Title（参考訳）: AirZoo:航空測地3Dビジョンのための統合された大規模データセット
Authors: Xiaoya Cheng, Rouwan Wu, Xinyi Liu, Zeyu Cui, Yan Liu, Na Zhao, Yu Liu, Maojun Zhang, Shen Yan,
Abstract要約: AirZooは、幾何学的幾何学的3Dビジョンをグラウンド化するための、大規模なデータセットとベンチマークである。カスタマイズ可能なUAV飛行軌道と天候/照明を備えた広大な屋外環境をレンダリングする。これは、22か国(378か国)の地域タイプを最も広範囲にカバーしている。
参考スコア（独自算出の注目度）: 30.122172829536677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the rapid progress in data-driven 3D vision, aerial geometric 3D vision remains a formidable challenge due to the severe scarcity of large-scale, high-fidelity training data. Existing benchmarks, predominantly biased toward ground-level or object-centric views, do not account for complex viewpoint transformations and diverse environmental conditions in UAV-based sensing. To bridge this critical gap, we propose AirZoo, a unified large-scale dataset and benchmark for grounding aerial geometric 3D vision. AirZoo possesses three appealing properties: 1) Scalable Generation Pipeline: Leveraging freely available, world-scale photogrammetric 3D meshes, it renders vast outdoor environments with customizable UAV flight trajectories and configurable weather/illumination. 2) Comprehensive Scene Diversity: It provides the most extensive coverage of region types to date (spanning 378 regions across 22 countries), systematically encompassing both highly structured urban landscapes and complex unstructured natural environments. 3) Rich Geometric Annotations: Each frame provides synchronized, pixel-level metric depth and precise 6-DoF geo-referenced poses, essential for geometry-aware learning. Through three rigorous evaluation tracks -- aerial image retrieval, cross-view matching, and multi-view 3D reconstruction -- we demonstrate that AirZoo serves as a powerful pre-training engine. Extensive experiments on both public and newly collected real-world benchmarks reveal that fine-tuning on AirZoo yields substantial performance gains for SoTA models (e.g., MegaLoc, RoMa, VGGT, and Depth Anything 3), establishing a new performance upper bound for aerial spatial intelligence.
Abstract（参考訳）: データ駆動型3Dビジョンの急速な進歩にもかかわらず、大規模な高忠実度トレーニングデータの不足により、幾何学的幾何学的3Dビジョンは依然として深刻な課題である。既存のベンチマークは、主に地上レベルや対象中心の視点に偏っているが、複雑な視点変換やUAVによるセンシングにおける多様な環境条件は考慮していない。この重要なギャップを埋めるために、航空幾何学的3次元視覚をグラウンド化するための大規模なデータセットとベンチマークであるAirZooを提案する。 AirZooは3つの魅力的な特性を持っている。 1) スケーラブル・ジェネレーション・パイプライン: 自由に利用でき、世界規模の3Dメッシュを使用して、カスタマイズ可能なUAV飛行軌跡と設定可能な天候/照明を備えた広大な屋外環境をレンダリングする。 2) 総合的な景観多様性: 高度に構造化された都市景観と複雑な非構造的な自然環境の両方を体系的に包含する,これまでで最も広範な地域タイプ(22か国378地域)を網羅する。 3) リッチ幾何アノテーション: 各フレームは、幾何認識学習に欠かせない、同期されたピクセルレベルのメートル法深度と正確な6-DoF測地対応ポーズを提供する。航空画像検索、クロスビューマッチング、マルチビュー3D再構成の3つの厳格な評価トラックを通じて、AirZooが強力な事前訓練エンジンであることを示す。公開および新たに収集された実世界のベンチマークにおいて、AirZooの微調整はSoTAモデル(例:MegaLoc、RoMa、VGGT、Depth Anything 3)の大幅な性能向上をもたらし、空間的インテリジェンスのための新たなパフォーマンス上限を確立する。

関連論文リスト

Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception [51.687842983240564]
無人航空機(UAV)のクロスビューな地上局地化は、斜めのUAV画像と衛星地図との厳密な幾何学的相違により、いまだに困難である。本稿では,3次元シーン形状を明示的にモデル化し,粗い位置認識ときめ細かなポーズ推定を統一する,幾何認識型UAV測位フレームワークを提案する。提案手法は, 最先端のベースラインを著しく上回り, ロバストメータレベルのローカライゼーション精度を実現し, 複雑な都市環境における一般化を向上する。
論文参考訳（メタデータ） (2026-04-02T08:08:41Z)
SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文参考訳（メタデータ） (2026-03-22T03:56:58Z)
Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文参考訳（メタデータ） (2026-02-08T09:53:21Z)
Beyond a Single Light: A Large-Scale Aerial Dataset for Urban Scene Reconstruction Under Varying Illumination [27.470486341807316]
都市景観のモデリングにおいて,照明の堅牢な3次元再構成を特に研究するためのデータセットSkyLumeを紹介した。 100k以上の高分解能UAV画像からなる10の都市域データからデータを収集する。各種照明下での深度, 表面の正常度, 再現性を評価するために, シーンごとのLiDARスキャンと正確な3次元地下構造を提供する。
論文参考訳（メタデータ） (2025-12-16T08:47:56Z)
Top2Ground: A Height-Aware Dual Conditioning Diffusion Model for Robust Aerial-to-Ground View Generation [14.377332218510743]
Top2Groundは、空中入力画像から地上画像を直接生成する新しい拡散法である。本研究では,VAE符号化空間特徴の共役表現にデノナイジング過程を規定する。 Top2Groundは、広視野と狭視野の両方を強力に扱うことができ、その強力な一般化能力を強調している。
論文参考訳（メタデータ） (2025-11-11T13:53:07Z)
WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文参考訳（メタデータ） (2025-10-24T17:39:52Z)
EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion [23.3834795181211]
Aerial-Earth3Dは、これまでで最大の3D空中データセットで、アメリカ本土で撮影された50万のキュレートされたシーン(それぞれ600m×600m)で構成されています。各シーンは、ポーズアノテートされたマルチビューイメージ、深度マップ、ノーマル、セマンティックセグメンテーション、カメラのポーズを提供し、地形の多様性を保証するための明確な品質制御を提供する。我々は,スパースデカップリング型潜水拡散による大規模3次元地球生成に適したフレームワークであるEarthCrafterを提案する。
論文参考訳（メタデータ） (2025-07-22T12:46:48Z)
Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground Scenes [55.15494682493422]
本稿では,ガウシアン・スプレイティング技術に基づく新しい手法であるHorizon-GSを導入し,航空やストリートビューの統一的な再構築とレンダリングに挑戦する。提案手法は,これらの視点と新たなトレーニング戦略を組み合わせることによる重要な課題に対処し,視点の相違を克服し,高忠実度シーンを生成する。
論文参考訳（メタデータ） (2024-12-02T17:42:00Z)
AerialGo: Walking-through City View Generation from Aerial Perspectives [48.53976414257845]
AerialGoは、空中画像からリアルな街並みを生成するフレームワークである。 AerialGoは、アクセス可能な航空データに地上視合成を条件付けすることで、地上レベルの画像に固有のプライバシーリスクを回避できる。実験により、AerialGoは地上レベルのリアリズムと構造的コヒーレンスを著しく向上させることが示された。
論文参考訳（メタデータ） (2024-11-29T08:14:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。