論文の概要: Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image
- arxiv url: http://arxiv.org/abs/2406.04343v1
- Date: Thu, 6 Jun 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:11:04.271066
- Title: Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image
- Title(参考訳): Flash3D:フィードフォワードの一般的な3Dシーンを1枚の画像から再現する
- Authors: Stanislaw Szymanowicz, Eldar Insafutdinov, Chuanxia Zheng, Dylan Campbell, João F. Henriques, Christian Rupprecht, Andrea Vedaldi,
- Abstract要約: Flash3Dは、1つの画像からシーン再構成と新しいビュー合成を行う方法である。
一般性については、単分子深度推定のための「基礎」モデルから始める。
効率性のために、我々はこの拡張をフィードフォワードガウススプラッティングに基づける。
- 参考スコア(独自算出の注目度): 80.48452783328995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose Flash3D, a method for scene reconstruction and novel view synthesis from a single image which is both very generalisable and efficient. For generalisability, we start from a "foundation" model for monocular depth estimation and extend it to a full 3D shape and appearance reconstructor. For efficiency, we base this extension on feed-forward Gaussian Splatting. Specifically, we predict a first layer of 3D Gaussians at the predicted depth, and then add additional layers of Gaussians that are offset in space, allowing the model to complete the reconstruction behind occlusions and truncations. Flash3D is very efficient, trainable on a single GPU in a day, and thus accessible to most researchers. It achieves state-of-the-art results when trained and tested on RealEstate10k. When transferred to unseen datasets like NYU it outperforms competitors by a large margin. More impressively, when transferred to KITTI, Flash3D achieves better PSNR than methods trained specifically on that dataset. In some instances, it even outperforms recent methods that use multiple views as input. Code, models, demo, and more results are available at https://www.robots.ox.ac.uk/~vgg/research/flash3d/.
- Abstract(参考訳): 本稿では,1つの画像からシーン再構成と新しいビュー合成を行う手法であるFlash3Dを提案する。
汎用性のために、単分子深度推定のための「基礎」モデルから始まり、それを完全な3次元形状と外観再構成器に拡張する。
効率性のために、我々はこの拡張をフィードフォワードガウススプラッティングに基づける。
具体的には、予測された深さで3次元ガウスの第1層を予測し、宇宙空間にオフセットされたガウスの層を追加し、オクルージョンやトランケーションの裏でモデルが再構築を完了させる。
Flash3Dは非常に効率的で、1日に1つのGPUでトレーニングできるため、ほとんどの研究者がアクセスできる。
RealEstate10kでトレーニングとテストを行うと、最先端の結果が得られます。
NYUのような目に見えないデータセットに移行すれば、ライバルよりも大きなマージンでパフォーマンスが向上する。
さらに印象的なことに、KITTIに転送されると、Flash3Dはそのデータセットで特別に訓練されたメソッドよりも優れたPSNRを達成する。
場合によっては、複数のビューを入力として使用する最近のメソッドよりも優れています。
コード、モデル、デモ、その他の結果はhttps://www.robots.ox.ac.uk/~vgg/research/flash3d/で公開されている。
関連論文リスト
- ZeroGS: Training 3D Gaussian Splatting from Unposed Images [62.34149221132978]
我々はZeroGSを提案し、3DGSを何百もの未提示画像から訓練する。
本手法は,事前学習した基礎モデルをニューラルネットワークのシーン表現として活用する。
提案手法は,最先端のポーズレスNeRF/3DGS法よりも高精度なカメラポーズを復元する。
論文 参考訳(メタデータ) (2024-11-24T11:20:48Z) - Few-shot Novel View Synthesis using Depth Aware 3D Gaussian Splatting [0.0]
3次元ガウススプラッティングは、新しいビュー合成における神経放射場法を超越している。
多数のインプットビューを備えた高品質なレンダリングを生成するが、ほんの数ビューしか利用できない場合、パフォーマンスは大幅に低下する。
数発の新規ビュー合成のための奥行き認識型ガウススプラッティング法を提案する。
論文 参考訳(メタデータ) (2024-10-14T20:42:30Z) - Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs [29.669534899109028]
Splatt3Rはポーズレスフィードフォワード方式で,立体対からの3次元再構成と新しいビュー合成を行う。
Splatt3Rは補正されていない自然画像から、カメラパラメータや深度情報を必要とせずに3Dガウススプラッターを予測できる。
Splatt3Rは512 x 512の解像度で4FPSでシーンを再構築でき、その結果のスプラッターをリアルタイムでレンダリングできる。
論文 参考訳(メタデータ) (2024-08-25T18:27:20Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。