論文の概要: latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2403.16292v1
- Date: Sun, 24 Mar 2024 20:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:36:49.001196
- Title: latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction
- Title(参考訳): latentSplat: 高速な一般化可能な3次元再構成のための変分ガウスの自動符号化
- Authors: Christopher Wewer, Kevin Raj, Eddy Ilg, Bernt Schiele, Jan Eric Lenssen,
- Abstract要約: latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。
latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 48.86083272054711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present latentSplat, a method to predict semantic Gaussians in a 3D latent space that can be splatted and decoded by a light-weight generative 2D architecture. Existing methods for generalizable 3D reconstruction either do not enable fast inference of high resolution novel views due to slow volume rendering, or are limited to interpolation of close input views, even in simpler settings with a single central object, where 360-degree generalization is possible. In this work, we combine a regression-based approach with a generative model, moving towards both of these capabilities within the same method, trained purely on readily available real video data. The core of our method are variational 3D Gaussians, a representation that efficiently encodes varying uncertainty within a latent space consisting of 3D feature Gaussians. From these Gaussians, specific instances can be sampled and rendered via efficient Gaussian splatting and a fast, generative decoder network. We show that latentSplat outperforms previous works in reconstruction quality and generalization, while being fast and scalable to high-resolution data.
- Abstract(参考訳): 本稿では,3次元潜在空間における意味ガウスの予測手法である latentSplat について述べる。
従来の一般化可能な3D再構成手法では、ボリュームレンダリングが遅いため、高解像度の新規ビューを高速に推測できないか、あるいは360度の一般化が可能な単一の中心オブジェクトによるより単純な設定であっても、クローズドな入力ビューの補間に制限される。
本研究では,レグレッションベースアプローチと生成モデルを組み合わせることで,これら両方の機能を同一の手法で実現し,利用可能な実映像データに基づいて純粋に学習する。
本手法のコアは変分3次元ガウスであり, 3次元特徴ガウスからなる潜在空間における不確かさを効率的に符号化する表現である。
これらのガウシアンから、効率的なガウシアンスプレイティングと高速で生成的なデコーダネットワークを通じて、特定のインスタンスをサンプル化し、レンダリングすることができる。
latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
関連論文リスト
- Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、エンドツーエンドの3D再構成モデルである。
Gambaは、データ前処理、正規化設計、トレーニング方法論の大幅な進歩を取り入れている。
ここでガンバは、質的にも量的にも競争力のある生成能力を示しながら、目覚ましいスピードを実現している。
論文 参考訳(メタデータ) (2024-03-27T17:40:14Z) - 2D Gaussian Splatting for Geometrically Accurate Radiance Fields [50.056790168812114]
3D Gaussian Splatting (3DGS)は近年,高画質の新規ビュー合成と高速レンダリングを実現し,放射界再構成に革命をもたらした。
多視点画像から幾何学的精度の高い放射場をモデル化・再構成するための新しいアプローチである2DGS(2D Gaussian Splatting)を提案する。
競合する外観品質、高速トレーニング速度、リアルタイムレンダリングを維持しつつ、ノイズフリーかつ詳細な幾何学的再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:21:24Z) - GVGEN: Text-to-3D Generation with Volumetric Representation [89.55687129165256]
3Dガウススプラッティングは、高速で高品質なレンダリング機能で知られる3D再構成と生成のための強力な技術として登場した。
本稿では,テキスト入力から3次元ガウス表現を効率的に生成する新しい拡散型フレームワークGVGENを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:57:52Z) - Compact 3D Gaussian Splatting For Dense Visual SLAM [26.47738770606461]
本稿では,ガウス楕円体の数とパラメータサイズを削減できるコンパクトな3次元ガウス格子SLAMシステムを提案する。
余剰楕円体を減らすために、スライドウィンドウベースのマスキング戦略が最初に提案されている。
本手法は,シーン表現の最先端(SOTA)品質を維持しつつ,高速なトレーニングとレンダリングの高速化を実現する。
論文 参考訳(メタデータ) (2024-03-17T15:41:35Z) - pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction [26.72289913260324]
pixelSplatは、画像のペアから3次元ガウスプリミティブによってパラメータ化された3次元放射界の再構成を学ぶフィードフォワードモデルである。
我々のモデルは、スケーラブルなトレーニングのためのリアルタイム・メモリ効率のレンダリングと、推論時の高速な3次元再構成を特徴としている。
論文 参考訳(メタデータ) (2023-12-19T17:03:50Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。
2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。
本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。