論文の概要: Splatter Image: Ultra-Fast Single-View 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2312.13150v1
- Date: Wed, 20 Dec 2023 16:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 14:51:31.536362
- Title: Splatter Image: Ultra-Fast Single-View 3D Reconstruction
- Title(参考訳): Splatter Image: Ultra-Fast Single-View 3Dレコンストラクション
- Authors: Stanislaw Szymanowicz and Christian Rupprecht and Andrea Vedaldi
- Abstract要約: Splatter Imageは,38FPSで動作するモノクローナル3次元オブジェクト再構成のための超高速なアプローチである。
Splatter ImageはGaussian Splattingをベースにしており、リアルタイムレンダリング、高速トレーニング、マルチビュー再構築に優れたスケーリングを実現している。
- 参考スコア(独自算出の注目度): 76.38261311948649
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce the Splatter Image, an ultra-fast approach for monocular 3D
object reconstruction which operates at 38 FPS. Splatter Image is based on
Gaussian Splatting, which has recently brought real-time rendering, fast
training, and excellent scaling to multi-view reconstruction. For the first
time, we apply Gaussian Splatting in a monocular reconstruction setting. Our
approach is learning-based, and, at test time, reconstruction only requires the
feed-forward evaluation of a neural network. The main innovation of Splatter
Image is the surprisingly straightforward design: it uses a 2D image-to-image
network to map the input image to one 3D Gaussian per pixel. The resulting
Gaussians thus have the form of an image, the Splatter Image. We further extend
the method to incorporate more than one image as input, which we do by adding
cross-view attention. Owning to the speed of the renderer (588 FPS), we can use
a single GPU for training while generating entire images at each iteration in
order to optimize perceptual metrics like LPIPS. On standard benchmarks, we
demonstrate not only fast reconstruction but also better results than recent
and much more expensive baselines in terms of PSNR, LPIPS, and other metrics.
- Abstract(参考訳): Splatter Imageは,38FPSで動作するモノクローナル3次元オブジェクト再構成のための超高速なアプローチである。
Splatter ImageはGaussian Splattingをベースにしており、リアルタイムレンダリング、高速トレーニング、マルチビュー再構築への優れたスケーリングを実現している。
初めて,ガウス型スプラッティングを単眼再構成に応用した。
我々のアプローチは学習ベースであり、テスト時に、レコンストラクションはニューラルネットワークのフィードフォワード評価のみを必要とする。
2D画像と画像のネットワークを使って、入力された画像をピクセルごとに1つの3Dガウスアンにマッピングする。
結果として得られたガウス像は、Splatter Imageという画像の形をしている。
さらに,複数の画像を入力として組み込む手法を拡張した。
レンダラの速度(588fps)に合わせて、各イテレーションでイメージ全体を生成しながら、単一のgpuを使用してトレーニングを行い、lpipなどの知覚メトリックを最適化します。
標準ベンチマークでは,PSNR,LPIPS,その他の指標において,高速な再構成だけでなく,最近の,はるかに高価なベースラインよりも優れた結果を示す。
関連論文リスト
- ODGS: 3D Scene Reconstruction from Omnidirectional Images with 3D Gaussian Splattings [48.72040500647568]
幾何的解釈を用いた全方位画像の新規化パイプラインであるODGSについて述べる。
パイプライン全体が並列化され、最適化が達成され、NeRFベースの手法よりも100倍高速になる。
その結果、ODGSは大規模な3Dシーンを再構築しても、細部を効果的に復元できることがわかった。
論文 参考訳(メタデータ) (2024-10-28T02:45:13Z) - MomentsNeRF: Leveraging Orthogonal Moments for Few-Shot Neural Rendering [4.6786468967610055]
ニューラルレンダリングのための新しいフレームワークであるMomentsNeRFを提案する。
当社のアーキテクチャは,マルチシーンでトレーニングを行うための新しいトランスファー学習手法を提供する。
我々のアプローチは、Gabor や Zernike のモーメントから抽出した機能をうまく活用する最初の方法です。
論文 参考訳(メタデータ) (2024-07-02T21:02:48Z) - Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image [80.48452783328995]
Flash3Dは、1つの画像からシーン再構成と新しいビュー合成を行う方法である。
一般性については、単分子深度推定のための「基礎」モデルから始める。
効率性のために、我々はこの拡張をフィードフォワードガウススプラッティングに基づける。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。
1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文 参考訳(メタデータ) (2024-03-27T17:40:14Z) - Deblurring 3D Gaussian Splatting [7.315329140016319]
MLP(Multi-Layer Perceptron)を用いた3次元ガウス平滑化のための新しいリアルタイムデブロアリングフレームワークを提案する。
Deblurring 3D Gaussian Splattingはリアルタイムレンダリングを楽しめるが、ぼやけた画像から細かで鋭いディテールを再構築することができる。
論文 参考訳(メタデータ) (2024-01-01T18:23:51Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。