論文の概要: DRAGON: Drone and Ground Gaussian Splatting for 3D Building Reconstruction
- arxiv url: http://arxiv.org/abs/2407.01761v1
- Date: Mon, 1 Jul 2024 19:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:23:01.145157
- Title: DRAGON: Drone and Ground Gaussian Splatting for 3D Building Reconstruction
- Title(参考訳): DRAGON:ドローンと地上ガウシアンによる3Dビル再建
- Authors: Yujin Ham, Mateusz Michalkiewicz, Guha Balakrishnan,
- Abstract要約: DRAGONは、ドローンと地上の建築画像を入力として取り出し、3D NVSモデルを作成することができる。
Google Earth Studioを使って,9つの大きな建物シーンの半合成データセットを作成した。
- 参考スコア(独自算出の注目度): 6.204957247203803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D building reconstruction from imaging data is an important task for many applications ranging from urban planning to reconnaissance. Modern Novel View synthesis (NVS) methods like NeRF and Gaussian Splatting offer powerful techniques for developing 3D models from natural 2D imagery in an unsupervised fashion. These algorithms generally require input training views surrounding the scene of interest, which, in the case of large buildings, is typically not available across all camera elevations. In particular, the most readily available camera viewpoints at scale across most buildings are at near-ground (e.g., with mobile phones) and aerial (drones) elevations. However, due to the significant difference in viewpoint between drone and ground image sets, camera registration - a necessary step for NVS algorithms - fails. In this work we propose a method, DRAGON, that can take drone and ground building imagery as input and produce a 3D NVS model. The key insight of DRAGON is that intermediate elevation imagery may be extrapolated by an NVS algorithm itself in an iterative procedure with perceptual regularization, thereby bridging the visual feature gap between the two elevations and enabling registration. We compiled a semi-synthetic dataset of 9 large building scenes using Google Earth Studio, and quantitatively and qualitatively demonstrate that DRAGON can generate compelling renderings on this dataset compared to baseline strategies.
- Abstract(参考訳): 画像データから3次元建物を再構築することは,都市計画から偵察に至るまで,多くのアプリケーションにとって重要な課題である。
NeRFやGaussian Splattingのような最新のノベルビュー合成(NVS)手法は、教師なしの方法で自然な2D画像から3Dモデルを開発するための強力な技術を提供する。
これらのアルゴリズムは一般的に、興味のあるシーンを取り巻く入力トレーニングビューを必要とするが、大きな建物の場合、通常はすべてのカメラの高さで利用できない。
特に、ほとんどの建物にまたがる、最も手軽に使えるカメラの視点は、ほぼ地上(例えば携帯電話)と空中(ドローン)の高度である。
しかし、ドローンと地上の画像セットの視点が著しく異なるため、NVSアルゴリズムに必要なステップであるカメラ登録は失敗する。
本研究では,3次元NVSモデルの入力として,ドローンと地上の建物画像を取り出すことができるDRAGONを提案する。
DRAGONの重要な洞察は、中間標高画像は、知覚的正規化を伴う反復的な手順でNVSアルゴリズムによって外挿され、それによって2つの標高の間の視覚的特徴ギャップをブリッジし、登録を可能にすることである。
Google Earth Studioを使って9つの大きな建物シーンの半合成データセットをコンパイルし、DRAGONがベースライン戦略と比較して魅力的なレンダリングを生成できることを定量的に質的に実証した。
関連論文リスト
- Scalable Indoor Novel-View Synthesis using Drone-Captured 360 Imagery with 3D Gaussian Splatting [3.020267522817212]
本稿では,ドローンによる360度映像からの室内ノベルビュー合成のための,効率的でスケーラブルなパイプラインを提案する。
360度カメラは幅広い視点を捉え、単純なドローン軌道下での総合的なシーンキャプチャを可能にする。
以上の結果より,PSNRとSSIMの再現性は向上し,従来のアプローチと比較して時間も改善した。
論文 参考訳(メタデータ) (2024-10-15T05:08:47Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。