論文の概要: A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2405.20310v1
- Date: Thu, 30 May 2024 17:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:00:01.273281
- Title: A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction
- Title(参考訳): シングルビューで3Dを再現する「Pixel」は3Dガウシアンが1人以上いる
- Authors: Jianghao Shen, Tianfu Wu,
- Abstract要約: シングルビュー画像から3Dシーン表現を学習することは、コンピュータビジョンにおける長年の根本的な問題である。
本稿では,1つの画素が1つ以上の3次元ガウス値を持つ階層型スプラッター画像法を提案する。
提案手法は,ShapeNet-SRNおよびCO3Dデータセットを用いて,最先端の性能を検証した。
- 参考スコア(独自算出の注目度): 8.442975380419012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning 3D scene representation from a single-view image is a long-standing fundamental problem in computer vision, with the inherent ambiguity in predicting contents unseen from the input view. Built on the recently proposed 3D Gaussian Splatting (3DGS), the Splatter Image method has made promising progress on fast single-image novel view synthesis via learning a single 3D Gaussian for each pixel based on the U-Net feature map of an input image. However, it has limited expressive power to represent occluded components that are not observable in the input view. To address this problem, this paper presents a Hierarchical Splatter Image method in which a pixel is worth more than one 3D Gaussians. Specifically, each pixel is represented by a parent 3D Gaussian and a small number of child 3D Gaussians. Parent 3D Gaussians are learned as done in the vanilla Splatter Image. Child 3D Gaussians are learned via a lightweight Multi-Layer Perceptron (MLP) which takes as input the projected image features of a parent 3D Gaussian and the embedding of a target camera view. Both parent and child 3D Gaussians are learned end-to-end in a stage-wise way. The joint condition of input image features from eyes of the parent Gaussians and the target camera position facilitates learning to allocate child Gaussians to ``see the unseen'', recovering the occluded details that are often missed by parent Gaussians. In experiments, the proposed method is tested on the ShapeNet-SRN and CO3D datasets with state-of-the-art performance obtained, especially showing promising capabilities of reconstructing occluded contents in the input view.
- Abstract(参考訳): シングルビュー画像から3Dシーンの表現を学習することは、コンピュータビジョンにおける長年の根本的問題であり、入力ビューから見えないコンテンツの予測に固有の曖昧さがある。
Splatter Image methodは、最近提案された3D Gaussian Splatting(3DGS)に基づいて、入力画像のU-Net特徴マップに基づいて、各画素に対して単一の3D Gaussianを学習することで、高速な単一画像のノベルビュー合成を進歩させた。
しかし、入力ビューでは観測できない排他的コンポーネントを表現するための表現力は限られている。
この問題に対処するため,本研究では,画素が1つ以上の3次元ガウス値を持つ階層型スプラッター画像法を提案する。
具体的には、各画素は親3Dガウシアンと子3Dガウシアンとで表される。
親の3Dガウスは、バニラ・スプラッター・イメージ(英語版)で学習されている。
子3Dガウスアンは、親3Dガウスアンの投影された画像特徴と対象カメラビューの埋め込みを入力として、軽量のマルチ層パーセプトロン(MLP)を介して学習される。
親と子の両方の3Dガウスアンは、段階的にエンドツーエンドで学習される。
親ガウスの目からの入力画像の特徴と対象カメラ位置との結合条件は、子ガウスを「見えないものを見る」に割り当てることを容易にし、しばしば親ガウスに見逃される隠された詳細を回復させる。
実験では,提案手法をShapeNet-SRNおよびCO3Dデータセット上でテストし,特に入力ビューにおける隠蔽コンテンツを再構成する有望な能力を示す。
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - UniG: Modelling Unitary 3D Gaussians for View-consistent 3D Reconstruction [20.089890859122168]
ビュー一貫性を持つ3次元再構成と新しいビュー合成モデルUniGを提案する。
UniGはスパース画像から3Dガウスの高忠実度表現を生成する。
論文 参考訳(メタデータ) (2024-10-17T03:48:02Z) - GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。
実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-05T05:52:20Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting [82.29476781526752]
高度にスパースな視点から3Dオブジェクトを再構成・レンダリングすることは、3Dビジョン技術の応用を促進する上で非常に重要である。
GaussianObjectは、Gaussian splattingで3Dオブジェクトを表現してレンダリングするフレームワークで、4つの入力イメージだけで高いレンダリング品質を実現する。
GaussianObjectは、MipNeRF360、OmniObject3D、OpenIllumination、および私たちが収集した未提示画像など、いくつかの挑戦的なデータセットで評価されている。
論文 参考訳(メタデータ) (2024-02-15T18:42:33Z) - AGG: Amortized Generative 3D Gaussians for Single Image to 3D [108.38567665695027]
Amortized Generative 3D Gaussian framework (AGG) を導入する。
AGGは、共同最適化のための3Dガウス位置およびその他の外観特性の生成を分解する。
本稿では,まず3次元データの粗い表現を生成し,後に3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-08T18:56:33Z) - GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning [60.33970027554299]
ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。
本稿では,ガウススプラッティングを利用してテキスト記述から現実的なアニマタブルなアバターを生成する。
提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。
論文 参考訳(メタデータ) (2023-12-18T18:59:12Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。