Fugu-MT 論文翻訳(概要): Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

論文の概要: Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

arxiv url: http://arxiv.org/abs/2403.18795v1
Date: Wed, 27 Mar 2024 17:40:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 15:50:03.352533
Title: Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction
Title（参考訳）: ガンバ:マムバとマーリー・ガウシアン・スプレイティングシングルビュー3D再構築
Authors: Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang,
Abstract要約: Gambaは、エンドツーエンドの3D再構成モデルである。 Gambaは、データ前処理、正規化設計、トレーニング方法論の大幅な進歩を取り入れている。ここでガンバは、質的にも量的にも競争力のある生成能力を示しながら、目覚ましいスピードを実現している。
参考スコア（独自算出の注目度）: 153.52406455209538
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We tackle the challenge of efficiently reconstructing a 3D asset from a single image with growing demands for automated 3D content creation pipelines. Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural Radiance Fields (NeRF). Despite their significant success, these approaches encounter practical limitations due to lengthy optimization and considerable memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D reconstruction model from single-view images, emphasizing two main insights: (1) 3D representation: leveraging a large number of 3D Gaussians for an efficient 3D Gaussian splatting process; (2) Backbone design: introducing a Mamba-based sequential network that facilitates context-dependent reasoning and linear scalability with the sequence (token) length, accommodating a substantial number of Gaussians. Gamba incorporates significant advancements in data preprocessing, regularization design, and training methodologies. We assessed Gamba against existing optimization-based and feed-forward 3D generation approaches using the real-world scanned OmniObject3D dataset. Here, Gamba demonstrates competitive generation capabilities, both qualitatively and quantitatively, while achieving remarkable speed, approximately 0.6 second on a single NVIDIA A100 GPU.
Abstract（参考訳）: 我々は,自動化された3Dコンテンツ作成パイプラインの需要が増大する中で,単一の画像から3Dアセットを効率的に再構築する課題に取り組む。従来はSDS(Score Distillation Smpling)とNeural Radiance Fields(NeRF)が主流であった。その大きな成功にもかかわらず、これらのアプローチは、長い最適化とかなりのメモリ使用量のために、実用的な制限に直面している。本報告では, 単一視点画像からエンド・ツー・エンドの3次元再構成モデルであるガンバについて述べる。(1) 多数の3次元ガウス表現を効率的に3次元ガウス分割プロセスに活用すること,(2) バックボーン設計: コンテキスト依存推論と線形スケーラビリティをシーケンス(token)長で実現し, 相当数のガウスを収容すること。 Gambaは、データ前処理、正規化設計、トレーニング方法論の大幅な進歩を取り入れている。我々は,実世界のOmniObject3Dデータセットを用いて,既存の最適化ベースおよびフィードフォワード3D生成手法に対するガンバの評価を行った。ここでGambaは、定性的かつ定量的に競合生成能力を示しながら、1つのNVIDIA A100 GPUで約0.6秒の驚くべき速度を実現している。

関連論文リスト

iGaussian: Real-Time Camera Pose Estimation via Feed-Forward 3D Gaussian Splatting Inversion [62.09575122593993]
iGaussianは2段階のフィードフォワードフレームワークで、直接3Dガウス変換によるリアルタイムカメラポーズ推定を実現する。 NeRF Synthetic, Mip-NeRF 360, T&T+DB データセットの実験結果から, 従来の手法に比べて大幅な性能向上が得られた。
論文参考訳（メタデータ） (2025-11-18T05:22:22Z)
SaLon3R: Structure-aware Long-term Generalizable 3D Reconstruction from Unposed Images [31.94503176488054]
SaLon3Rは構造対応の長期3DGS再構成のための新しいフレームワークである。 10 FPS以上で50以上のビューを再構築でき、50%から90%の冗長性除去が可能である。提案手法は, 1回のフィードフォワードパスにおいて, アーティファクトを効果的に解決し, 冗長な3DGSを創出する。
論文参考訳（メタデータ） (2025-10-16T18:37:10Z)
Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文参考訳（メタデータ） (2025-08-06T16:16:58Z)
Sparse2DGS: Sparse-View Surface Reconstruction using 2D Gaussian Splatting with Dense Point Cloud [9.784526657786342]
本稿では,Sparse2DGSと呼ばれる新しい3次元再構成手法を提案する。 Sparse2DGSはステレオ画像の基本モデルであるDUSt3RとCOLMAP MVSを採用し、高精度で密度の高い3D点雲を生成する。 Sparse2DGSは3つの画像を用いて物体の3次元形状を正確に再構成できることを示す。
論文参考訳（メタデータ） (2025-05-26T11:38:26Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
AugGS: Self-augmented Gaussians with Structural Masks for Sparse-view 3D Reconstruction [9.953394373473621]
スパースビュー3D再構成はコンピュータビジョンにおける大きな課題である。本研究では,スパース・ビュー3D再構成のための構造マスクを付加した自己拡張型2段ガウス・スプレイティング・フレームワークを提案する。提案手法は,認識品質における最先端性能と,スパース入力との多視点整合性を実現する。
論文参考訳（メタデータ） (2024-08-09T03:09:22Z)
GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文参考訳（メタデータ） (2024-07-05T03:43:08Z)
PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本稿では,現在のアプローチよりも優れた空間感性プルーニングスコアを提案する。また,事前学習した任意の3D-GSモデルに適用可能なマルチラウンドプルーファインパイプラインを提案する。我々のパイプラインは、3D-GSの平均レンダリング速度を2.65$times$で増加させ、より健全なフォアグラウンド情報を保持します。
論文参考訳（メタデータ） (2024-06-14T17:53:55Z)
Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文参考訳（メタデータ） (2023-12-20T16:14:58Z)
Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文参考訳（メタデータ） (2023-12-14T17:18:34Z)
Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文参考訳（メタデータ） (2021-12-24T02:43:58Z)
Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。本稿では,D2S(Deep-to-scale)投影法を提案する。
論文参考訳（メタデータ） (2020-10-27T03:31:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。