論文の概要: Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction
- arxiv url: http://arxiv.org/abs/2403.18795v2
- Date: Fri, 29 Mar 2024 08:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 11:08:03.401376
- Title: Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction
- Title(参考訳): ガンバ:マムバとマーリー・ガウシアン・スプレイティング シングルビュー3D再構築
- Authors: Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang,
- Abstract要約: Gambaは、エンドツーエンドの3D再構成モデルである。
Gambaは、データ前処理、正規化設計、トレーニング方法論の大幅な進歩を取り入れている。
ここでガンバは、質的にも量的にも競争力のある生成能力を示しながら、目覚ましいスピードを実現している。
- 参考スコア(独自算出の注目度): 153.52406455209538
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We tackle the challenge of efficiently reconstructing a 3D asset from a single image with growing demands for automated 3D content creation pipelines. Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural Radiance Fields (NeRF). Despite their significant success, these approaches encounter practical limitations due to lengthy optimization and considerable memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D reconstruction model from single-view images, emphasizing two main insights: (1) 3D representation: leveraging a large number of 3D Gaussians for an efficient 3D Gaussian splatting process; (2) Backbone design: introducing a Mamba-based sequential network that facilitates context-dependent reasoning and linear scalability with the sequence (token) length, accommodating a substantial number of Gaussians. Gamba incorporates significant advancements in data preprocessing, regularization design, and training methodologies. We assessed Gamba against existing optimization-based and feed-forward 3D generation approaches using the real-world scanned OmniObject3D dataset. Here, Gamba demonstrates competitive generation capabilities, both qualitatively and quantitatively, while achieving remarkable speed, approximately 0.6 second on a single NVIDIA A100 GPU.
- Abstract(参考訳): 我々は,自動化された3Dコンテンツ作成パイプラインの需要が増大する中で,単一の画像から3Dアセットを効率的に再構築する課題に取り組む。
従来はSDS(Score Distillation Smpling)とNeural Radiance Fields(NeRF)が主流であった。
その大きな成功にもかかわらず、これらのアプローチは、長い最適化とかなりのメモリ使用量のために、実用的な制限に直面している。
本報告では, 単一視点画像からエンド・ツー・エンドの3次元再構成モデルであるガンバについて述べる。(1) 多数の3次元ガウス表現を効率的に3次元ガウス分割プロセスに活用すること,(2) バックボーン設計: コンテキスト依存推論と線形スケーラビリティをシーケンス(token)長で実現し, 相当数のガウスを収容すること。
Gambaは、データ前処理、正規化設計、トレーニング方法論の大幅な進歩を取り入れている。
我々は,実世界のOmniObject3Dデータセットを用いて,既存の最適化ベースおよびフィードフォワード3D生成手法に対するガンバの評価を行った。
ここでGambaは、定性的かつ定量的に競合生成能力を示しながら、1つのNVIDIA A100 GPUで約0.6秒の驚くべき速度を実現している。
関連論文リスト
- GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本稿では,現在のアプローチよりも優れた空間感性プルーニングスコアを提案する。
また,事前学習した任意の3D-GSモデルに適用可能なマルチラウンドプルーファインパイプラインを提案する。
我々のパイプラインは、3D-GSの平均レンダリング速度を2.65$times$で増加させ、より健全なフォアグラウンド情報を保持します。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。