Fugu-MT 論文翻訳(概要): Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

論文の概要: Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

arxiv url: http://arxiv.org/abs/2403.18795v3
Date: Fri, 24 May 2024 18:43:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 06:16:48.619906
Title: Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction
Title（参考訳）: ガンバ:マムバとマーリー・ガウシアン・スプレイティングシングルビュー3D再構築
Authors: Qiuhong Shen, Zike Wu, Xuanyu Yi, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang,
Abstract要約: Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。 1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
参考スコア（独自算出の注目度）: 153.52406455209538
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We tackle the challenge of efficiently reconstructing a 3D asset from a single image at millisecond speed. Existing methods for single-image 3D reconstruction are primarily based on Score Distillation Sampling (SDS) with Neural 3D representations. Despite promising results, these approaches encounter practical limitations due to lengthy optimizations and significant memory consumption. In this work, we introduce Gamba, an end-to-end 3D reconstruction model from a single-view image, emphasizing two main insights: (1) Efficient Backbone Design: introducing a Mamba-based GambaFormer network to model 3D Gaussian Splatting (3DGS) reconstruction as sequential prediction with linear scalability of token length, thereby accommodating a substantial number of Gaussians; (2) Robust Gaussian Constraints: deriving radial mask constraints from multi-view masks to eliminate the need for warmup supervision of 3D point clouds in training. We trained Gamba on Objaverse and assessed it against existing optimization-based and feed-forward 3D reconstruction approaches on the GSO Dataset, among which Gamba is the only end-to-end trained single-view reconstruction model with 3DGS. Experimental results demonstrate its competitive generation capabilities both qualitatively and quantitatively and highlight its remarkable speed: Gamba completes reconstruction within 0.05 seconds on a single NVIDIA A100 GPU, which is about $1,000\times$ faster than optimization-based methods. Please see our project page at https://florinshen.github.io/gamba-project.
Abstract（参考訳）: 1枚の画像から1ミリ秒の速度で3Dアセットを効率的に再構築するという課題に挑戦する。 SDS(Score Distillation Sampling)とニューラル3D表現をベースとして,既存の3D画像再構成手法が提案されている。有望な結果にもかかわらず、これらのアプローチは、長い最適化とかなりのメモリ消費のために、実用的な制限に直面している。本研究では,(1) 効率的なバックボーン設計: 3次元ガウススプラッティング(3DGS) 再構成を,トークン長の線形拡張性のある逐次予測として導入することにより,相当数のガウスアンを収容する,(2) ロバスト・ガウスアン制約: マルチビューマスクからのラジアルマスク制約を導出し,トレーニング中の3次元ポイントクラウドのウォームアップを不要にする,という2つの主要な洞察を具体化して,エンド・ツー・エンドの3次元再構築モデルであるガンバを紹介した。我々はObjaverseでガンバを訓練し、GSOデータセット上で既存の最適化ベースおよびフィードフォワード3D再構成アプローチと比較した。 Gambaは1つのNVIDIA A100 GPU上で0.05秒以内に再構築を完了します。プロジェクトのページはhttps://florinshen.github.io/gamba-projectでご覧ください。

関連論文リスト

Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文参考訳（メタデータ） (2025-08-06T16:16:58Z)
Sparse2DGS: Sparse-View Surface Reconstruction using 2D Gaussian Splatting with Dense Point Cloud [9.784526657786342]
本稿では,Sparse2DGSと呼ばれる新しい3次元再構成手法を提案する。 Sparse2DGSはステレオ画像の基本モデルであるDUSt3RとCOLMAP MVSを採用し、高精度で密度の高い3D点雲を生成する。 Sparse2DGSは3つの画像を用いて物体の3次元形状を正確に再構成できることを示す。
論文参考訳（メタデータ） (2025-05-26T11:38:26Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
AugGS: Self-augmented Gaussians with Structural Masks for Sparse-view 3D Reconstruction [9.953394373473621]
スパースビュー3D再構成はコンピュータビジョンにおける大きな課題である。本研究では,スパース・ビュー3D再構成のための構造マスクを付加した自己拡張型2段ガウス・スプレイティング・フレームワークを提案する。提案手法は,認識品質における最先端性能と,スパース入力との多視点整合性を実現する。
論文参考訳（メタデータ） (2024-08-09T03:09:22Z)
GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文参考訳（メタデータ） (2024-07-05T03:43:08Z)
PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本稿では,現在のアプローチよりも優れた空間感性プルーニングスコアを提案する。また,事前学習した任意の3D-GSモデルに適用可能なマルチラウンドプルーファインパイプラインを提案する。我々のパイプラインは、3D-GSの平均レンダリング速度を2.65$times$で増加させ、より健全なフォアグラウンド情報を保持します。
論文参考訳（メタデータ） (2024-06-14T17:53:55Z)
Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文参考訳（メタデータ） (2023-12-20T16:14:58Z)
Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文参考訳（メタデータ） (2023-12-14T17:18:34Z)
Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文参考訳（メタデータ） (2021-12-24T02:43:58Z)
Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。本稿では,D2S(Deep-to-scale)投影法を提案する。
論文参考訳（メタデータ） (2020-10-27T03:31:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。