論文の概要: LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation
- arxiv url: http://arxiv.org/abs/2402.05054v1
- Date: Wed, 7 Feb 2024 17:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:16:19.323788
- Title: LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation
- Title(参考訳): lgm:高解像度3dコンテンツ作成のための大規模マルチビューガウスモデル
- Authors: Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng,
Ziwei Liu
- Abstract要約: テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
- 参考スコア(独自算出の注目度): 51.19871052619077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D content creation has achieved significant progress in terms of both
quality and speed. Although current feed-forward models can produce 3D objects
in seconds, their resolution is constrained by the intensive computation
required during training. In this paper, we introduce Large Multi-View Gaussian
Model (LGM), a novel framework designed to generate high-resolution 3D models
from text prompts or single-view images. Our key insights are two-fold: 1) 3D
Representation: We propose multi-view Gaussian features as an efficient yet
powerful representation, which can then be fused together for differentiable
rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput
backbone operating on multi-view images, which can be produced from text or
single-view image input by leveraging multi-view diffusion models. Extensive
experiments demonstrate the high fidelity and efficiency of our approach.
Notably, we maintain the fast speed to generate 3D objects within 5 seconds
while boosting the training resolution to 512, thereby achieving
high-resolution 3D content generation.
- Abstract(参考訳): 3Dコンテンツ作成は、品質とスピードの両面で大きな進歩を遂げた。
現在のフィードフォワードモデルは数秒で3Dオブジェクトを生成できるが、その解像度はトレーニングに必要な集中的な計算によって制約される。
本稿では,テキストプロンプトやシングルビュー画像から高解像度3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model(LGM)を紹介する。
私たちの重要な洞察は2つあります。
1) 3次元表現:我々は多視点ガウス特徴を効率的かつ強力な表現として提案する。
2) 3Dバックボーン: 多視点拡散モデルを利用してテキストやシングルビュー画像入力から生成できる,多視点画像で動作する高スループットバックボーンとして非対称なU-Netを示す。
広範な実験により,我々のアプローチの忠実性と効率性が実証された。
特に,5秒以内に3Dオブジェクトの生成速度を維持しながら,トレーニング解像度を512に引き上げ,高解像度な3Dコンテンツ生成を実現する。
関連論文リスト
- Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [13.551691697814908]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient
Volumetric Encoder [59.436304016347485]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View
Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。
提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文 参考訳(メタデータ) (2023-11-14T03:40:25Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Generative Multiplane Neural Radiance for 3D-Aware Image Generation [102.15322193381617]
本稿では,複数のターゲットビューに対して連続した3次元高解像度画像を効率よく生成する手法を提案する。
我々のGMNRモデルは、単一のV100上で17.6FPSの1024×1024ピクセルの3D認識画像を生成する。
論文 参考訳(メタデータ) (2023-04-03T17:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。