Fugu-MT 論文翻訳(概要): UniGS: Modeling Unitary 3D Gaussians for Novel View Synthesis from Sparse-view Images

論文の概要: UniGS: Modeling Unitary 3D Gaussians for Novel View Synthesis from Sparse-view Images

arxiv url: http://arxiv.org/abs/2410.13195v3
Date: Tue, 01 Apr 2025 10:18:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-02 16:16:39.813622
Title: UniGS: Modeling Unitary 3D Gaussians for Novel View Synthesis from Sparse-view Images
Title（参考訳）: UniGS:スパースビュー画像からの新しいビュー合成のためのユニタリ3次元ガウスのモデリング
Authors: Jiamin Wu, Kenkun Liu, Yukai Shi, Xiaoke Jiang, Yuan Yao, Lei Zhang,
Abstract要約: 我々は,新しい3次元ガウス再構成と新しいビュー合成モデルであるUniGSを紹介する。 UniGSは、任意の数のスパースビュー画像から3Dガウスの高忠実度表現を予測する。
参考スコア（独自算出の注目度）: 20.089890859122168
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we introduce UniGS, a novel 3D Gaussian reconstruction and novel view synthesis model that predicts a high-fidelity representation of 3D Gaussians from arbitrary number of posed sparse-view images. Previous methods often regress 3D Gaussians locally on a per-pixel basis for each view and then transfer them to world space and merge them through point concatenation. In contrast, Our approach involves modeling unitary 3D Gaussians in world space and updating them layer by layer. To leverage information from multi-view inputs for updating the unitary 3D Gaussians, we develop a DETR (DEtection TRansformer)-like framework, which treats 3D Gaussians as queries and updates their parameters by performing multi-view cross-attention (MVDFA) across multiple input images, which are treated as keys and values. This approach effectively avoids `ghosting' issue and allocates more 3D Gaussians to complex regions. Moreover, since the number of 3D Gaussians used as decoder queries is independent of the number of input views, our method allows arbitrary number of multi-view images as input without causing memory explosion or requiring retraining. Extensive experiments validate the advantages of our approach, showcasing superior performance over existing methods quantitatively (improving PSNR by 4.2 dB when trained on Objaverse and tested on the GSO benchmark) and qualitatively. The code will be released at https://github.com/jwubz123/UNIG.
Abstract（参考訳）: 本研究では,任意の数のスパースビュー画像から3次元ガウス画像の高忠実度表現を予測する新しい3次元ガウス再構成と新しいビュー合成モデルUniGSを紹介する。従来の方法では、各ビューごとに3Dガウスを局所的に1ピクセル単位で回帰させ、それらを世界空間に転送し、点連結を通してそれらをマージする。対照的に、我々のアプローチでは、世界空間におけるユニタリな3Dガウスをモデル化し、それらを層ごとに更新する。 3Dガウスをクエリとして扱うDETR(Detection TRansformer)ライクなフレームワークを開発し、複数の入力画像に対して複数ビューのクロスアテンション(MVDFA)を実行することでパラメータを更新する。このアプローチは事実上‘ghosting’の問題を避け、複雑な領域により多くの3Dガウスを割り当てる。さらに,デコーダクエリとして使用される3Dガウスの数は入力ビュー数とは無関係であるため,メモリの爆発や再トレーニングを伴わずに,任意の数のマルチビュー画像を入力として利用することができる。提案手法の利点を検証し,既存の手法よりも優れた性能を示す(Objaverseでトレーニングし,GSOベンチマークで試験した場合にPSNRを4.2dB向上させる)。コードはhttps://github.com/jwubz123/UNIGで公開される。

関連論文リスト

RoGSplat: Learning Robust Generalizable Human Gaussian Splatting from Sparse Multi-View Images [39.03889696169877]
RoGSplatは、スパースマルチビュー画像から見えない人間の高忠実な新しいビューを合成するための新しいアプローチである。提案手法は,新しいビュー合成とクロスデータセットの一般化において,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-03-18T12:18:34Z)
NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文参考訳（メタデータ） (2024-11-25T07:57:17Z)
No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2024-10-31T17:58:22Z)
PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views [116.10577967146762]
PixelGaussianは、任意の視点から一般化可能な3Dガウス再構成を学習するための効率的なフレームワークである。提案手法は,様々な視点によく一般化した最先端性能を実現する。
論文参考訳（メタデータ） (2024-10-24T17:59:58Z)
Large Point-to-Gaussian Model for Image-to-3D Generation [48.95861051703273]
2次元画像上での3次元拡散モデルから生成された初期点雲を入力する大規模点-ガウスモデルを提案する。点雲はガウス生成に先立って最初の3次元幾何学を提供し、画像から3次元生成を著しく促進する。
論文参考訳（メタデータ） (2024-08-20T15:17:53Z)
Self-augmented Gaussian Splatting with Structure-aware Masks for Sparse-view 3D Reconstruction [9.953394373473621]
スパースビュー3D再構成は、コンピュータビジョンにおいて非常に難しい課題である。本稿では,構造対応マスクにより拡張された自己拡張型粗大なガウススプラッティングパラダイムを提案する。本手法は,知覚的品質と効率の両面において,スパース入力ビューの最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-09T03:09:22Z)
GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文参考訳（メタデータ） (2024-07-05T03:43:08Z)
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文参考訳（メタデータ） (2024-06-10T15:26:48Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
CoherentGS: Sparse Novel View Synthesis with Coherent 3D Gaussians [18.42203035154126]
2次元画像空間で制御できる構造付きガウス表現を導入する。次に、ガウス群、特にその位置を制約し、最適化中に独立に動くのを防ぐ。我々は,様々な場面における最先端のスパースビュー NeRF ベースのアプローチと比較して,顕著な改善を示した。
論文参考訳（メタデータ） (2024-03-28T15:27:13Z)
GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation [85.15374487533643]
約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。 GRMは、マルチビュー情報を効率的に組み込んだフィードフォワードトランスフォーマーベースのモデルである。また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。
論文参考訳（メタデータ） (2024-03-21T17:59:34Z)
AGG: Amortized Generative 3D Gaussians for Single Image to 3D [108.38567665695027]
Amortized Generative 3D Gaussian framework (AGG) を導入する。 AGGは、共同最適化のための3Dガウス位置およびその他の外観特性の生成を分解する。本稿では,まず3次元データの粗い表現を生成し,後に3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。
論文参考訳（メタデータ） (2024-01-08T18:56:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。