論文の概要: StdGEN: Semantic-Decomposed 3D Character Generation from Single Images
- arxiv url: http://arxiv.org/abs/2411.05738v1
- Date: Fri, 08 Nov 2024 17:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:25.641389
- Title: StdGEN: Semantic-Decomposed 3D Character Generation from Single Images
- Title(参考訳): StdGEN: 単一の画像から意味分解された3Dキャラクタ生成
- Authors: Yuze He, Yanning Zhou, Wang Zhao, Zhongkai Wu, Kaiwen Xiao, Wei Yang, Yong-Jin Liu, Xiao Han,
- Abstract要約: StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
- 参考スコア(独自算出の注目度): 28.302030751098354
- License:
- Abstract: We present StdGEN, an innovative pipeline for generating semantically decomposed high-quality 3D characters from single images, enabling broad applications in virtual reality, gaming, and filmmaking, etc. Unlike previous methods which struggle with limited decomposability, unsatisfactory quality, and long optimization times, StdGEN features decomposability, effectiveness and efficiency; i.e., it generates intricately detailed 3D characters with separated semantic components such as the body, clothes, and hair, in three minutes. At the core of StdGEN is our proposed Semantic-aware Large Reconstruction Model (S-LRM), a transformer-based generalizable model that jointly reconstructs geometry, color and semantics from multi-view images in a feed-forward manner. A differentiable multi-layer semantic surface extraction scheme is introduced to acquire meshes from hybrid implicit fields reconstructed by our S-LRM. Additionally, a specialized efficient multi-view diffusion model and an iterative multi-layer surface refinement module are integrated into the pipeline to facilitate high-quality, decomposable 3D character generation. Extensive experiments demonstrate our state-of-the-art performance in 3D anime character generation, surpassing existing baselines by a significant margin in geometry, texture and decomposability. StdGEN offers ready-to-use semantic-decomposed 3D characters and enables flexible customization for a wide range of applications. Project page: https://stdgen.github.io
- Abstract(参考訳): 我々は、単一の画像から意味的に分解された高品質な3Dキャラクタを生成する革新的なパイプラインであるStdGENを紹介し、仮想現実、ゲーム、映画製作などの幅広い応用を可能にする。
制限された分解性、不満足な品質、長い最適化時間に苦しむ従来の方法とは異なり、StdGENは分解性、有効性、効率性を特徴としている。
StdGENのコアとなるのは,多視点画像からの幾何学,色,意味をフィードフォワードで共同で再構成するトランスフォーマーに基づく一般化可能なモデルであるSemantic-aware Large Restruction Model (S-LRM) である。
S-LRMによって再構成されたハイブリッド暗黙の場からメッシュを取得するために,多層セマンティックサーフェス抽出方式を導入した。
さらに、高画質で分解可能な3Dキャラクタ生成を容易にするために、高効率な多層拡散モデルと反復多層表面改質モジュールをパイプラインに統合する。
大規模な実験により、3Dアニメのキャラクター生成における最先端の性能が、幾何学、テクスチャ、分解性において有意な差で既存のベースラインを超えていることが示された。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
プロジェクトページ: https://stdgen.github.io
関連論文リスト
- Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z) - InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models [66.83681825842135]
InstantMeshは、単一のイメージからインスタント3Dメッシュを生成するためのフィードフォワードフレームワークである。
最新世代の品質とトレーニングのスケーラビリティが特徴だ。
InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献ができることを意図しています。
論文 参考訳(メタデータ) (2024-04-10T17:48:37Z) - CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization [27.55341255800119]
本稿では,3Dキャラクタを効率的に生成するフレームワークである characterGen を提案する。
変換器ベースで一般化可能なスパースビュー再構成モデルが,我々のアプローチの他のコアコンポーネントである。
複数のポーズやビューでレンダリングされたアニメキャラクタのデータセットをキュレートして,モデルをトレーニングし,評価した。
論文 参考訳(メタデータ) (2024-02-27T05:10:59Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Efficient 3D Articulated Human Generation with Layered Surface Volumes [131.3802971483426]
我々は,デジタル人間のための新しい3次元オブジェクト表現として,層状表面体積(LSV)を導入する。
LSVは、従来のテンプレートの周囲の複数のテクスチャ層を使用して人体を表現する。
2Dジェネレータは個々のレイヤのRGBAテクスチャを合成することを学ぶ。
論文 参考訳(メタデータ) (2023-07-11T17:50:02Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。