論文の概要: Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers
- arxiv url: http://arxiv.org/abs/2312.09147v2
- Date: Sat, 16 Dec 2023 04:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:37:53.723307
- Title: Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers
- Title(参考訳): TriplaneがGussian Splattingを発表:高速で汎用的なトランスフォーマーによるシングルビュー3D再構成
- Authors: Zi-Xin Zou, Zhipeng Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang,
Yan-Pei Cao and Song-Hai Zhang
- Abstract要約: 本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
- 参考スコア(独自算出の注目度): 37.14235383028582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in 3D reconstruction from single images have been driven
by the evolution of generative models. Prominent among these are methods based
on Score Distillation Sampling (SDS) and the adaptation of diffusion models in
the 3D domain. Despite their progress, these techniques often face limitations
due to slow optimization or rendering processes, leading to extensive training
and optimization times. In this paper, we introduce a novel approach for
single-view reconstruction that efficiently generates a 3D model from a single
image via feed-forward inference. Our method utilizes two transformer-based
networks, namely a point decoder and a triplane decoder, to reconstruct 3D
objects using a hybrid Triplane-Gaussian intermediate representation. This
hybrid representation strikes a balance, achieving a faster rendering speed
compared to implicit representations while simultaneously delivering superior
rendering quality than explicit representations. The point decoder is designed
for generating point clouds from single images, offering an explicit
representation which is then utilized by the triplane decoder to query Gaussian
features for each point. This design choice addresses the challenges associated
with directly regressing explicit 3D Gaussian attributes characterized by their
non-structural nature. Subsequently, the 3D Gaussians are decoded by an MLP to
enable rapid rendering through splatting. Both decoders are built upon a
scalable, transformer-based architecture and have been efficiently trained on
large-scale 3D datasets. The evaluations conducted on both synthetic datasets
and real-world images demonstrate that our method not only achieves higher
quality but also ensures a faster runtime in comparison to previous
state-of-the-art techniques. Please see our project page at
https://zouzx.github.io/TriplaneGaussian/.
- Abstract(参考訳): 単一画像からの3次元再構成の最近の進歩は、生成モデルの進化によって引き起こされている。
代表的なものは、スコア蒸留サンプリング(SDS)に基づく手法と、3D領域における拡散モデルの適応である。
それらの進歩にもかかわらず、これらの技術は、遅い最適化やレンダリングプロセスのためにしばしば制限に直面する。
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率的に生成する一視点再構成手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
このハイブリッド表現は、暗黙の表現よりも高速なレンダリング速度を実現すると同時に、明示的な表現よりも優れたレンダリング品質を提供する。
ポイントデコーダは単一画像から点雲を生成するように設計されており、各点のガウス的特徴を問うためにトリプレーンデコーダによって使用される明示的な表現を提供する。
この設計選択は、その非構造的性質を特徴とする明示的な3次元ガウス特性を直接回帰する問題に対処する。
その後、3dガウスはmlpでデコードされ、スプラッティングによる高速レンダリングを可能にする。
どちらのデコーダもスケーラブルでトランスフォーマーベースのアーキテクチャ上に構築されており、大規模な3Dデータセットで効率的にトレーニングされている。
合成データセットと実世界画像の両方で実施した評価結果から,本手法は高品質なだけでなく,従来の最先端技術よりも高速なランタイムを実現する。
プロジェクトページはhttps://zouzx.github.io/TriplaneGaussian/。
関連論文リスト
- AGG: Amortized Generative 3D Gaussians for Single Image to 3D [108.38567665695027]
Amortized Generative 3D Gaussian framework (AGG) を導入する。
AGGは、共同最適化のための3Dガウス位置およびその他の外観特性の生成を分解する。
本稿では,まず3次元データの粗い表現を生成し,後に3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-08T18:56:33Z) - pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable
Generalizable 3D Reconstruction [29.192847542384712]
pixelSplatは、画像のペアから3次元ガウスプリミティブによってパラメータ化された3次元放射界の再構成を学ぶフィードフォワードモデルである。
我々のモデルは、スケーラブルなトレーニングのためのリアルタイム・メモリ効率のレンダリングと、推論時の高速な3次元再構成を特徴としている。
論文 参考訳(メタデータ) (2023-12-19T17:03:50Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [54.56928482110888]
本稿では,まず3次元ガウス表現を同時局所化・マッピングシステムで利用するtextbfGS-SLAM$を紹介する。
提案手法では,地図の最適化とRGB-D再レンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content
Creation [59.716180709678845]
本稿では,DreamGaussianを提案する。DreamGaussianは,効率と品質を両立させる新しい3Dコンテンツ生成フレームワークである。
我々の重要な洞察は、UV空間におけるメッシュ抽出とテクスチャ改善を伴う3次元ガウススプラッティングモデルを設計することである。
ニューラル・ラジアンス・フィールドにおける占有プルーニングとは対照的に、3次元ガウスの進行的な密度化は3次元生成タスクにおいて著しく速く収束することを示した。
論文 参考訳(メタデータ) (2023-09-28T17:55:05Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。
2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。
本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:56:20Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。