Fugu-MT 論文翻訳(概要): Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers

論文の概要: Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers

arxiv url: http://arxiv.org/abs/2312.09147v2
Date: Sat, 16 Dec 2023 04:31:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 21:37:53.723307
Title: Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers
Title（参考訳）: TriplaneがGussian Splattingを発表:高速で汎用的なトランスフォーマーによるシングルビュー3D再構成
Authors: Zi-Xin Zou, Zhipeng Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Yan-Pei Cao and Song-Hai Zhang
Abstract要約: 本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
参考スコア（独自算出の注目度）: 37.14235383028582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in 3D reconstruction from single images have been driven by the evolution of generative models. Prominent among these are methods based on Score Distillation Sampling (SDS) and the adaptation of diffusion models in the 3D domain. Despite their progress, these techniques often face limitations due to slow optimization or rendering processes, leading to extensive training and optimization times. In this paper, we introduce a novel approach for single-view reconstruction that efficiently generates a 3D model from a single image via feed-forward inference. Our method utilizes two transformer-based networks, namely a point decoder and a triplane decoder, to reconstruct 3D objects using a hybrid Triplane-Gaussian intermediate representation. This hybrid representation strikes a balance, achieving a faster rendering speed compared to implicit representations while simultaneously delivering superior rendering quality than explicit representations. The point decoder is designed for generating point clouds from single images, offering an explicit representation which is then utilized by the triplane decoder to query Gaussian features for each point. This design choice addresses the challenges associated with directly regressing explicit 3D Gaussian attributes characterized by their non-structural nature. Subsequently, the 3D Gaussians are decoded by an MLP to enable rapid rendering through splatting. Both decoders are built upon a scalable, transformer-based architecture and have been efficiently trained on large-scale 3D datasets. The evaluations conducted on both synthetic datasets and real-world images demonstrate that our method not only achieves higher quality but also ensures a faster runtime in comparison to previous state-of-the-art techniques. Please see our project page at https://zouzx.github.io/TriplaneGaussian/.
Abstract（参考訳）: 単一画像からの3次元再構成の最近の進歩は、生成モデルの進化によって引き起こされている。代表的なものは、スコア蒸留サンプリング(SDS)に基づく手法と、3D領域における拡散モデルの適応である。それらの進歩にもかかわらず、これらの技術は、遅い最適化やレンダリングプロセスのためにしばしば制限に直面する。本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率的に生成する一視点再構成手法を提案する。提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。このハイブリッド表現は、暗黙の表現よりも高速なレンダリング速度を実現すると同時に、明示的な表現よりも優れたレンダリング品質を提供する。ポイントデコーダは単一画像から点雲を生成するように設計されており、各点のガウス的特徴を問うためにトリプレーンデコーダによって使用される明示的な表現を提供する。この設計選択は、その非構造的性質を特徴とする明示的な3次元ガウス特性を直接回帰する問題に対処する。その後、3dガウスはmlpでデコードされ、スプラッティングによる高速レンダリングを可能にする。どちらのデコーダもスケーラブルでトランスフォーマーベースのアーキテクチャ上に構築されており、大規模な3Dデータセットで効率的にトレーニングされている。合成データセットと実世界画像の両方で実施した評価結果から,本手法は高品質なだけでなく,従来の最先端技術よりも高速なランタイムを実現する。プロジェクトページはhttps://zouzx.github.io/TriplaneGaussian/。

関連論文リスト

Off The Grid: Detection of Primitives for Feed-Forward 3D Gaussian Splatting [33.7339252839354]
本稿では,3次元ガウスプリミティブをサブピクセルレベルで検出するフィードフォワードアーキテクチャを提案する。キーポイント検出にインスパイアされたデコーダは、プリミティブをイメージパッチに分散することを学ぶ。得られたポーズフリーモデルは数秒でシーンを生成し、フィードフォワードモデルのための最先端の新規ビュー合成を実現する。
論文参考訳（メタデータ） (2025-12-17T14:59:21Z)
Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image [68.55613894952177]
単一ビュー画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である textbfWonder3D++ を導入する。マルチビュー正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。最後に,多視点2次元表現から高品質な表面を粗い方法でわずか3ドル程度で駆動するカスケード3次元メッシュ抽出アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-11-03T17:24:18Z)
2D Triangle Splatting for Direct Differentiable Mesh Training [4.161453036693641]
2DTS(2D Triangle Splatting)は、3次元ガウス原始体を2次元三角形のフェーレットに置き換える新しい方法である。三角形プリミティブにコンパクト性パラメータを組み込むことで、光現実性メッシュの直接訓練を可能にする。提案手法は,既存のメッシュ再構成手法と比較して,視覚的品質の優れた再構成メッシュを生成する。
論文参考訳（メタデータ） (2025-06-23T12:26:47Z)
HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文参考訳（メタデータ） (2025-03-27T09:45:09Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文参考訳（メタデータ） (2024-07-05T03:43:08Z)
Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。 1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文参考訳（メタデータ） (2024-03-27T17:40:14Z)
latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction [48.86083272054711]
latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。 latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-24T20:48:36Z)
AGG: Amortized Generative 3D Gaussians for Single Image to 3D [108.38567665695027]
Amortized Generative 3D Gaussian framework (AGG) を導入する。 AGGは、共同最適化のための3Dガウス位置およびその他の外観特性の生成を分解する。本稿では,まず3次元データの粗い表現を生成し,後に3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。
論文参考訳（メタデータ） (2024-01-08T18:56:33Z)
Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文参考訳（メタデータ） (2023-12-20T16:14:58Z)
pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction [26.72289913260324]
pixelSplatは、画像のペアから3次元ガウスプリミティブによってパラメータ化された3次元放射界の再構成を学ぶフィードフォワードモデルである。我々のモデルは、スケーラブルなトレーニングのためのリアルタイム・メモリ効率のレンダリングと、推論時の高速な3次元再構成を特徴としている。
論文参考訳（メタデータ） (2023-12-19T17:03:50Z)
Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文参考訳（メタデータ） (2023-05-03T17:56:01Z)
TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。 2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文参考訳（メタデータ） (2023-03-23T17:56:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。