Fugu-MT 論文翻訳(概要): Splatter Image: Ultra-Fast Single-View 3D Reconstruction

論文の概要: Splatter Image: Ultra-Fast Single-View 3D Reconstruction

arxiv url: http://arxiv.org/abs/2312.13150v2
Date: Tue, 16 Apr 2024 17:56:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 23:35:28.106898
Title: Splatter Image: Ultra-Fast Single-View 3D Reconstruction
Title（参考訳）: Splatter Image: Ultra-Fast Single-View 3Dレコンストラクション
Authors: Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi,
Abstract要約: Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
参考スコア（独自算出の注目度）: 67.96212093828179
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce the \method, an ultra-efficient approach for monocular 3D object reconstruction. Splatter Image is based on Gaussian Splatting, which allows fast and high-quality reconstruction of 3D scenes from multiple images. We apply Gaussian Splatting to monocular reconstruction by learning a neural network that, at test time, performs reconstruction in a feed-forward manner, at 38 FPS. Our main innovation is the surprisingly straightforward design of this network, which, using 2D operators, maps the input image to one 3D Gaussian per pixel. The resulting set of Gaussians thus has the form an image, the Splatter Image. We further extend the method take several images as input via cross-view attention. Owning to the speed of the renderer (588 FPS), we use a single GPU for training while generating entire images at each iteration to optimize perceptual metrics like LPIPS. On several synthetic, real, multi-category and large-scale benchmark datasets, we achieve better results in terms of PSNR, LPIPS, and other metrics while training and evaluating much faster than prior works. Code, models, demo and more results are available at https://szymanowiczs.github.io/splatter-image.
Abstract（参考訳）: モノクローナル3次元オブジェクト再構成のための超効率的なアプローチである<method</method</method>を導入する。 Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習し,単分子再構成にガウススメッティングを適用した。私たちの主な革新は、このネットワークの驚くほど簡単な設計で、2D演算子を使って入力画像を1ピクセルあたり1つの3Dガウスアンにマップする。結果として得られたガウスの集合は、像 Splatter Image の形をしている。さらに、クロスビューアテンションによる入力として、複数の画像を取得する手法を拡張した。レンダラの速度(588 FPS)に比例して、トレーニングには1つのGPUを使用し、各イテレーションで全画像を生成し、LPIPSのような知覚的メトリクスを最適化します。いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果が得られる。コード、モデル、デモ、その他の結果はhttps://szymanowiczs.github.io/splatter-image.comで公開されている。

関連論文リスト

Off The Grid: Detection of Primitives for Feed-Forward 3D Gaussian Splatting [33.7339252839354]
本稿では,3次元ガウスプリミティブをサブピクセルレベルで検出するフィードフォワードアーキテクチャを提案する。キーポイント検出にインスパイアされたデコーダは、プリミティブをイメージパッチに分散することを学ぶ。得られたポーズフリーモデルは数秒でシーンを生成し、フィードフォワードモデルのための最先端の新規ビュー合成を実現する。
論文参考訳（メタデータ） (2025-12-17T14:59:21Z)
Sparse2DGS: Sparse-View Surface Reconstruction using 2D Gaussian Splatting with Dense Point Cloud [9.784526657786342]
本稿では,Sparse2DGSと呼ばれる新しい3次元再構成手法を提案する。 Sparse2DGSはステレオ画像の基本モデルであるDUSt3RとCOLMAP MVSを採用し、高精度で密度の高い3D点雲を生成する。 Sparse2DGSは3つの画像を用いて物体の3次元形状を正確に再構成できることを示す。
論文参考訳（メタデータ） (2025-05-26T11:38:26Z)
Sparfels: Fast Reconstruction from Sparse Unposed Imagery [8.362190332905524]
コンシューマグレードGPU上で3分以内で動作する表面要素スプラッティングを用いたスパースビュー再構成法を提案する。我々の貢献の鍵は、効率よく計算できる光線に沿ったスプレイト色分散の新たな定式化である。確立されたマルチビューデータセットに基づいて、再構成と新規ビューベンチマークにおいて、スパースな未校正設定における最先端性能を示す。
論文参考訳（メタデータ） (2025-05-04T16:40:24Z)
ODGS: 3D Scene Reconstruction from Omnidirectional Images with 3D Gaussian Splattings [48.72040500647568]
幾何的解釈を用いた全方位画像の新規化パイプラインであるODGSについて述べる。パイプライン全体が並列化され、最適化が達成され、NeRFベースの手法よりも100倍高速になる。その結果、ODGSは大規模な3Dシーンを再構築しても、細部を効果的に復元できることがわかった。
論文参考訳（メタデータ） (2024-10-28T02:45:13Z)
MomentsNeRF: Leveraging Orthogonal Moments for Few-Shot Neural Rendering [4.6786468967610055]
ニューラルレンダリングのための新しいフレームワークであるMomentsNeRFを提案する。当社のアーキテクチャは,マルチシーンでトレーニングを行うための新しいトランスファー学習手法を提供する。我々のアプローチは、Gabor や Zernike のモーメントから抽出した機能をうまく活用する最初の方法です。
論文参考訳（メタデータ） (2024-07-02T21:02:48Z)
Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image [80.48452783328995]
Flash3Dは、1つの画像からシーン再構成と新しいビュー合成を行う方法である。一般性については、単分子深度推定のための「基礎」モデルから始める。効率性のために、我々はこの拡張をフィードフォワードガウススプラッティングに基づける。
論文参考訳（メタデータ） (2024-06-06T17:59:56Z)
Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。 1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文参考訳（メタデータ） (2024-03-27T17:40:14Z)
Deblurring 3D Gaussian Splatting [7.315329140016319]
MLP(Multi-Layer Perceptron)を用いた3次元ガウス平滑化のための新しいリアルタイムデブロアリングフレームワークを提案する。 Deblurring 3D Gaussian Splattingはリアルタイムレンダリングを楽しめるが、ぼやけた画像から細かで鋭いディテールを再構築することができる。
論文参考訳（メタデータ） (2024-01-01T18:23:51Z)
Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文参考訳（メタデータ） (2023-12-14T17:18:34Z)
Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文参考訳（メタデータ） (2020-06-22T13:48:09Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。