論文の概要: AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
- arxiv url: http://arxiv.org/abs/2504.13157v1
- Date: Thu, 17 Apr 2025 17:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:33.882818
- Title: AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
- Title(参考訳): AerialMegaDepth:Aerial-Groundの再構築とビュー合成
- Authors: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani,
- Abstract要約: 本研究では,3次元都市規模のメッシュからの擬似合成レンダリングと,実地レベルでのクラウドソース画像を組み合わせたスケーラブルなフレームワークを提案する。
擬似合成データは、幅広い空中視点をシミュレートする一方、実際のクラウドソース画像は、地上レベルの画像の視覚的忠実度を改善するのに役立つ。
このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、実世界のゼロショット地上作業において大幅な改善を実現する。
- 参考スコア(独自算出の注目度): 57.249817395828174
- License:
- Abstract: We explore the task of geometric reconstruction of images captured from a mixture of ground and aerial views. Current state-of-the-art learning-based approaches fail to handle the extreme viewpoint variation between aerial-ground image pairs. Our hypothesis is that the lack of high-quality, co-registered aerial-ground datasets for training is a key reason for this failure. Such data is difficult to assemble precisely because it is difficult to reconstruct in a scalable way. To overcome this challenge, we propose a scalable framework combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The pseudo-synthetic data simulates a wide range of aerial viewpoints, while the real, crowd-sourced images help improve visual fidelity for ground-level images where mesh-based renderings lack sufficient detail, effectively bridging the domain gap between real images and pseudo-synthetic renderings. Using this hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve significant improvements on real-world, zero-shot aerial-ground tasks. For example, we observe that baseline DUSt3R localizes fewer than 5% of aerial-ground pairs within 5 degrees of camera rotation error, while fine-tuning with our data raises accuracy to nearly 56%, addressing a major failure point in handling large viewpoint changes. Beyond camera estimation and scene reconstruction, our dataset also improves performance on downstream tasks like novel-view synthesis in challenging aerial-ground scenarios, demonstrating the practical value of our approach in real-world applications.
- Abstract(参考訳): 地上と空中の視界の混合から得られた画像の幾何的再構成の課題について検討する。
現在の最先端の学習ベースアプローチでは、地上画像ペア間の極端な視点変化に対処できない。
私たちの仮説は、高品質で共同登録された地上データセットが不足していることが、この失敗の鍵となる理由である、というものです。
このようなデータは、スケーラブルな方法で再構築することが難しいため、正確に組み立てるのは困難である。
この課題を克服するために、我々は3D都市全体のメッシュ(例えば、Google Earth)と実際のクラウドソースイメージ(例えば、MegaDepth)の擬似合成レンダリングを組み合わせたスケーラブルなフレームワークを提案する。
擬似合成データは、広範囲の空中視点をシミュレートする一方、実際のクラウドソース画像は、メッシュベースのレンダリングが十分な詳細を欠いている地上レベルの画像の視覚的忠実度を向上させるのに役立ち、実際の画像と擬似合成レンダリングのドメインギャップを効果的にブリッジする。
このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、実世界のゼロショット地上作業において大幅な改善を実現する。
例えば、ベースラインのDUSt3Rは、カメラ回転誤差5度以内の地上対の5%未満をローカライズするのに対し、我々のデータによる微調整では精度が56%近く向上し、大きな視点の変化に対処する上で大きな障害点に対処する。
カメラ推定やシーン再構成以外にも、地上の挑戦的なシナリオにおける新規ビュー合成などの下流タスクのパフォーマンス向上や、実世界のアプリケーションにおけるアプローチの実践的価値の実証も行っています。
関連論文リスト
- Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground Scenes [55.15494682493422]
本稿では,ガウシアン・スプレイティング技術に基づく新しい手法であるHorizon-GSを導入し,航空やストリートビューの統一的な再構築とレンダリングに挑戦する。
提案手法は,これらの視点と新たなトレーニング戦略を組み合わせることによる重要な課題に対処し,視点の相違を克服し,高忠実度シーンを生成する。
論文 参考訳(メタデータ) (2024-12-02T17:42:00Z) - Skyeyes: Ground Roaming using Aerial View Images [9.159470619808127]
地上画像のシーケンスを生成するための新しいフレームワークであるSkyeyesを紹介した。
より具体的には、3D表現とビュー一貫した生成モデルを組み合わせることで、生成された画像間のコヒーレンスを保証する。
画像は、空間的時間的コヒーレンスとリアリズムを改善し、空間的視点からシーンの理解と可視化を強化する。
論文 参考訳(メタデータ) (2024-09-25T07:21:43Z) - Drone-assisted Road Gaussian Splatting with Cross-view Uncertainty [10.37108303188536]
3D Gaussian Splatting (3D-GS)は、ニューラルレンダリングにおいて画期的な進歩を遂げた。
大規模な道路シーンレンダリングの一般的な忠実度は、入力画像によって制限されることが多い。
カービューのアンサンブルに基づくレンダリングの不確実性と空中画像とのマッチングにより、3D-GSにクロスビューの不確実性を導入する。
論文 参考訳(メタデータ) (2024-08-27T17:59:55Z) - MaRINeR: Enhancing Novel Views by Matching Rendered Images with Nearby References [49.71130133080821]
MaRINeRは、近くのマッピング画像の情報を活用して、ターゲット視点のレンダリングを改善する方法である。
暗黙のシーン表現と暗黙のシーン表現の両方から、定量的な指標と定性的な例のレンダリングの改善を示す。
論文 参考訳(メタデータ) (2024-07-18T17:50:03Z) - SG-NeRF: Neural Surface Reconstruction with Scene Graph Optimization [16.460851701725392]
本稿では,外乱ポーズの影響を軽減するため,シーングラフを用いた放射場最適化手法を提案する。
本手法では,シーングラフに基づく適応型不整合・不整合信頼度推定手法を取り入れた。
また、カメラのポーズと表面形状を最適化するために、効果的な交叉結合(IoU)損失を導入する。
論文 参考訳(メタデータ) (2024-07-17T15:50:17Z) - Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery [51.73680703579997]
航空画像から都市規模のセマンティックスとビルレベルのインスタンスセグメンテーションのためのニューラルラジアンスフィールド法を提案する。
都市空撮画像の物体は、建物、車、道路など、相当な大きさのバリエーションを示している。
我々は,様々な大きさのオブジェクトのセグメンテーションを強化する,スケール適応型セマンティックラベル融合戦略を導入する。
次に、2次元のインスタンスラベルにおける多視点不整合問題を緩和するために、新しいクロスビューインスタンスラベルグループ化戦略を導入する。
論文 参考訳(メタデータ) (2024-03-18T14:15:39Z) - Render-and-Compare: Cross-View 6 DoF Localization from Noisy Prior [17.08552155321949]
本研究では,従来の地上レベルの設定を超えて,空中から地上へのクロスビューのローカライゼーションを活用することを提案する。
研究対象の公開データセットは存在しないため、スマートフォンやドローンからのさまざまなクロスビュー画像を提供する新しいデータセットを収集します。
そこで我々は,検索画像の地味なポーズを半自動で取得するシステムを開発した。
論文 参考訳(メタデータ) (2023-02-13T11:43:47Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Ground material classification and for UAV-based photogrammetric 3D data
A 2D-3D Hybrid Approach [1.3359609092684614]
近年,物理環境を表す3次元仮想データを作成するために,多くの領域でフォトグラム法が広く用いられている。
これらの最先端技術は、迅速な3D戦場再建、仮想訓練、シミュレーションを目的として、アメリカ陸軍と海軍の注意を引き付けている。
論文 参考訳(メタデータ) (2021-09-24T22:29:26Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。