Fugu-MT 論文翻訳(概要): StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

論文の概要: StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

arxiv url: http://arxiv.org/abs/2411.05738v1
Date: Fri, 08 Nov 2024 17:54:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.832104
Title: StdGEN: Semantic-Decomposed 3D Character Generation from Single Images
Title（参考訳）: StdGEN: 単一の画像から意味分解された3Dキャラクタ生成
Authors: Yuze He, Yanning Zhou, Wang Zhao, Zhongkai Wu, Kaiwen Xiao, Wei Yang, Yong-Jin Liu, Xiao Han,
Abstract要約: StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。 3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。 StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
参考スコア（独自算出の注目度）: 28.302030751098354
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present StdGEN, an innovative pipeline for generating semantically decomposed high-quality 3D characters from single images, enabling broad applications in virtual reality, gaming, and filmmaking, etc. Unlike previous methods which struggle with limited decomposability, unsatisfactory quality, and long optimization times, StdGEN features decomposability, effectiveness and efficiency; i.e., it generates intricately detailed 3D characters with separated semantic components such as the body, clothes, and hair, in three minutes. At the core of StdGEN is our proposed Semantic-aware Large Reconstruction Model (S-LRM), a transformer-based generalizable model that jointly reconstructs geometry, color and semantics from multi-view images in a feed-forward manner. A differentiable multi-layer semantic surface extraction scheme is introduced to acquire meshes from hybrid implicit fields reconstructed by our S-LRM. Additionally, a specialized efficient multi-view diffusion model and an iterative multi-layer surface refinement module are integrated into the pipeline to facilitate high-quality, decomposable 3D character generation. Extensive experiments demonstrate our state-of-the-art performance in 3D anime character generation, surpassing existing baselines by a significant margin in geometry, texture and decomposability. StdGEN offers ready-to-use semantic-decomposed 3D characters and enables flexible customization for a wide range of applications. Project page: https://stdgen.github.io
Abstract（参考訳）: 我々は、単一の画像から意味的に分解された高品質な3Dキャラクタを生成する革新的なパイプラインであるStdGENを紹介し、仮想現実、ゲーム、映画製作などの幅広い応用を可能にする。制限された分解性、不満足な品質、長い最適化時間に苦しむ従来の方法とは異なり、StdGENは分解性、有効性、効率性を特徴としている。 StdGENのコアとなるのは,多視点画像からの幾何学,色,意味をフィードフォワードで共同で再構成するトランスフォーマーに基づく一般化可能なモデルであるSemantic-aware Large Restruction Model (S-LRM) である。 S-LRMによって再構成されたハイブリッド暗黙の場からメッシュを取得するために,多層セマンティックサーフェス抽出方式を導入した。さらに、高画質で分解可能な3Dキャラクタ生成を容易にするために、高効率な多層拡散モデルと反復多層表面改質モジュールをパイプラインに統合する。大規模な実験により、3Dアニメのキャラクター生成における最先端の性能が、幾何学、テクスチャ、分解性において有意な差で既存のベースラインを超えていることが示された。 StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。プロジェクトページ: https://stdgen.github.io

関連論文リスト

End-to-End Fine-Tuning of 3D Texture Generation using Differentiable Rewards [8.953379216683732]
本稿では,人間のフィードバックを3次元テクスチャパイプラインに直接埋め込む,エンドツーエンドの微分可能・強化学習不要なフレームワークを提案する。幾何学的および外見的モジュールによる好み信号のバックプロパゲーションにより、3次元幾何学的構造を尊重し、所望の基準と整合するテクスチャを生成する。
論文参考訳（メタデータ） (2025-06-23T06:24:12Z)
Direct and Explicit 3D Generation from a Single Image [25.207277983430608]
マルチビュー2次元深度画像とRGB画像を用いて表面形状とテクスチャを直接生成する新しいフレームワークを提案する。画素レベルの多視点整合性を実現するために,エピポーラの注意を潜時から画素間デコーダに組み込む。生成した深度画素を3次元空間にバックプロジェクションすることにより、構造化された3次元表現を生成する。
論文参考訳（メタデータ） (2024-11-17T03:14:50Z)
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文参考訳（メタデータ） (2024-11-12T18:59:32Z)
GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。 GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-06-21T17:49:31Z)
InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models [66.83681825842135]
InstantMeshは、単一のイメージからインスタント3Dメッシュを生成するためのフィードフォワードフレームワークである。最新世代の品質とトレーニングのスケーラビリティが特徴だ。 InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献ができることを意図しています。
論文参考訳（メタデータ） (2024-04-10T17:48:37Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
Efficient 3D Articulated Human Generation with Layered Surface Volumes [131.3802971483426]
我々は,デジタル人間のための新しい3次元オブジェクト表現として,層状表面体積(LSV)を導入する。 LSVは、従来のテンプレートの周囲の複数のテクスチャ層を使用して人体を表現する。 2Dジェネレータは個々のレイヤのRGBAテクスチャを合成することを学ぶ。
論文参考訳（メタデータ） (2023-07-11T17:50:02Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。