論文の概要: Splatter Image: Ultra-Fast Single-View 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2312.13150v2
- Date: Tue, 16 Apr 2024 17:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 23:35:28.106898
- Title: Splatter Image: Ultra-Fast Single-View 3D Reconstruction
- Title(参考訳): Splatter Image: Ultra-Fast Single-View 3Dレコンストラクション
- Authors: Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi,
- Abstract要約: Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
- 参考スコア(独自算出の注目度): 67.96212093828179
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce the \method, an ultra-efficient approach for monocular 3D object reconstruction. Splatter Image is based on Gaussian Splatting, which allows fast and high-quality reconstruction of 3D scenes from multiple images. We apply Gaussian Splatting to monocular reconstruction by learning a neural network that, at test time, performs reconstruction in a feed-forward manner, at 38 FPS. Our main innovation is the surprisingly straightforward design of this network, which, using 2D operators, maps the input image to one 3D Gaussian per pixel. The resulting set of Gaussians thus has the form an image, the Splatter Image. We further extend the method take several images as input via cross-view attention. Owning to the speed of the renderer (588 FPS), we use a single GPU for training while generating entire images at each iteration to optimize perceptual metrics like LPIPS. On several synthetic, real, multi-category and large-scale benchmark datasets, we achieve better results in terms of PSNR, LPIPS, and other metrics while training and evaluating much faster than prior works. Code, models, demo and more results are available at https://szymanowiczs.github.io/splatter-image.
- Abstract(参考訳): モノクローナル3次元オブジェクト再構成のための超効率的なアプローチである<method</method</method>を導入する。
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習し,単分子再構成にガウススメッティングを適用した。
私たちの主な革新は、このネットワークの驚くほど簡単な設計で、2D演算子を使って入力画像を1ピクセルあたり1つの3Dガウスアンにマップする。
結果として得られたガウスの集合は、像 Splatter Image の形をしている。
さらに、クロスビューアテンションによる入力として、複数の画像を取得する手法を拡張した。
レンダラの速度(588 FPS)に比例して、トレーニングには1つのGPUを使用し、各イテレーションで全画像を生成し、LPIPSのような知覚的メトリクスを最適化します。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果が得られる。
コード、モデル、デモ、その他の結果はhttps://szymanowiczs.github.io/splatter-image.comで公開されている。
関連論文リスト
- ODGS: 3D Scene Reconstruction from Omnidirectional Images with 3D Gaussian Splattings [48.72040500647568]
幾何的解釈を用いた全方位画像の新規化パイプラインであるODGSについて述べる。
パイプライン全体が並列化され、最適化が達成され、NeRFベースの手法よりも100倍高速になる。
その結果、ODGSは大規模な3Dシーンを再構築しても、細部を効果的に復元できることがわかった。
論文 参考訳(メタデータ) (2024-10-28T02:45:13Z) - MomentsNeRF: Leveraging Orthogonal Moments for Few-Shot Neural Rendering [4.6786468967610055]
ニューラルレンダリングのための新しいフレームワークであるMomentsNeRFを提案する。
当社のアーキテクチャは,マルチシーンでトレーニングを行うための新しいトランスファー学習手法を提供する。
我々のアプローチは、Gabor や Zernike のモーメントから抽出した機能をうまく活用する最初の方法です。
論文 参考訳(メタデータ) (2024-07-02T21:02:48Z) - Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image [80.48452783328995]
Flash3Dは、1つの画像からシーン再構成と新しいビュー合成を行う方法である。
一般性については、単分子深度推定のための「基礎」モデルから始める。
効率性のために、我々はこの拡張をフィードフォワードガウススプラッティングに基づける。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。
1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文 参考訳(メタデータ) (2024-03-27T17:40:14Z) - Deblurring 3D Gaussian Splatting [7.315329140016319]
MLP(Multi-Layer Perceptron)を用いた3次元ガウス平滑化のための新しいリアルタイムデブロアリングフレームワークを提案する。
Deblurring 3D Gaussian Splattingはリアルタイムレンダリングを楽しめるが、ぼやけた画像から細かで鋭いディテールを再構築することができる。
論文 参考訳(メタデータ) (2024-01-01T18:23:51Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。