論文の概要: A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2405.20310v3
- Date: Mon, 3 Jun 2024 15:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 13:30:34.716470
- Title: A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction
- Title(参考訳): シングルビューで3Dを再現する「Pixel」は3Dガウシアンが1人以上いる
- Authors: Jianghao Shen, Nan Xue, Tianfu Wu,
- Abstract要約: シングルビュー画像から3Dシーン表現を学習することは、コンピュータビジョンにおける長年の根本的な問題である。
本稿では,1つの画素が1つ以上の3次元ガウス値を持つ階層型スプラッター画像法を提案する。
提案手法は,ShapeNet-SRNおよびCO3Dデータセットを用いて,最先端の性能を検証した。
- 参考スコア(独自算出の注目度): 11.717489649882987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning 3D scene representation from a single-view image is a long-standing fundamental problem in computer vision, with the inherent ambiguity in predicting contents unseen from the input view. Built on the recently proposed 3D Gaussian Splatting (3DGS), the Splatter Image method has made promising progress on fast single-image novel view synthesis via learning a single 3D Gaussian for each pixel based on the U-Net feature map of an input image. However, it has limited expressive power to represent occluded components that are not observable in the input view. To address this problem, this paper presents a Hierarchical Splatter Image method in which a pixel is worth more than one 3D Gaussians. Specifically, each pixel is represented by a parent 3D Gaussian and a small number of child 3D Gaussians. Parent 3D Gaussians are learned as done in the vanilla Splatter Image. Child 3D Gaussians are learned via a lightweight Multi-Layer Perceptron (MLP) which takes as input the projected image features of a parent 3D Gaussian and the embedding of a target camera view. Both parent and child 3D Gaussians are learned end-to-end in a stage-wise way. The joint condition of input image features from eyes of the parent Gaussians and the target camera position facilitates learning to allocate child Gaussians to ``see the unseen'', recovering the occluded details that are often missed by parent Gaussians. In experiments, the proposed method is tested on the ShapeNet-SRN and CO3D datasets with state-of-the-art performance obtained, especially showing promising capabilities of reconstructing occluded contents in the input view.
- Abstract(参考訳): シングルビュー画像から3Dシーンの表現を学習することは、コンピュータビジョンにおける長年の根本的問題であり、入力ビューから見えないコンテンツの予測に固有の曖昧さがある。
Splatter Image methodは、最近提案された3D Gaussian Splatting(3DGS)に基づいて、入力画像のU-Net特徴マップに基づいて、各画素に対して単一の3D Gaussianを学習することで、高速な単一画像のノベルビュー合成を進歩させた。
しかし、入力ビューでは観測できない排他的コンポーネントを表現するための表現力は限られている。
この問題に対処するため,本研究では,画素が1つ以上の3次元ガウス値を持つ階層型スプラッター画像法を提案する。
具体的には、各画素は親3Dガウシアンと子3Dガウシアンとで表される。
親の3Dガウスは、バニラ・スプラッター・イメージ(英語版)で学習されている。
子3Dガウスアンは、親3Dガウスアンの投影された画像特徴と対象カメラビューの埋め込みを入力として、軽量のマルチ層パーセプトロン(MLP)を介して学習される。
親と子の両方の3Dガウスアンは、段階的にエンドツーエンドで学習される。
親ガウスの目からの入力画像の特徴と対象カメラ位置との結合条件は、子ガウスを「見えないものを見る」に割り当てることを容易にし、しばしば親ガウスに見逃される隠された詳細を回復させる。
実験では,提案手法をShapeNet-SRNおよびCO3Dデータセット上でテストし,特に入力ビューにおける隠蔽コンテンツを再構成する有望な能力を示す。
関連論文リスト
- Adversarial Generation of Hierarchical Gaussians for 3D Generative Model [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。
実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-05T05:52:20Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
オープン語彙の3Dシーン理解はコンピュータビジョンにおいて重要な課題である。
本稿では,セマンティックガウシアン(SemanticGaussians)について紹介する。
提案手法は,従来のオープン語彙シーン理解手法よりも4.2%mIoUと4.0%mAccの改善を実現している。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - AGG: Amortized Generative 3D Gaussians for Single Image to 3D [108.38567665695027]
Amortized Generative 3D Gaussian framework (AGG) を導入する。
AGGは、共同最適化のための3Dガウス位置およびその他の外観特性の生成を分解する。
本稿では,まず3次元データの粗い表現を生成し,後に3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-08T18:56:33Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning [60.33970027554299]
ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。
本稿では,ガウススプラッティングを利用してテキスト記述から現実的なアニマタブルなアバターを生成する。
提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。
論文 参考訳(メタデータ) (2023-12-18T18:59:12Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z) - Compact 3D Gaussian Representation for Radiance Field [14.729871192785696]
本研究では,3次元ガウス点数を削減するための学習可能なマスク戦略を提案する。
また、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。
我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文 参考訳(メタデータ) (2023-11-22T20:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。