論文の概要: CharacterGen: Efficient 3D Character Generation from Single Images with
Multi-View Pose Canonicalization
- arxiv url: http://arxiv.org/abs/2402.17214v1
- Date: Tue, 27 Feb 2024 05:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:43:23.933481
- Title: CharacterGen: Efficient 3D Character Generation from Single Images with
Multi-View Pose Canonicalization
- Title(参考訳): キャラクタGen:マルチビューポーズ正準化を用いた単一画像からの効率的な3次元キャラクタ生成
- Authors: Hao-Yang Peng, Jia-Peng Zhang, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu
- Abstract要約: 本稿では,3Dキャラクタを効率的に生成するフレームワークである characterGen を提案する。
変換器ベースで一般化可能なスパースビュー再構成モデルが,我々のアプローチの他のコアコンポーネントである。
複数のポーズやビューでレンダリングされたアニメキャラクタのデータセットをキュレートして,モデルをトレーニングし,評価した。
- 参考スコア(独自算出の注目度): 29.560567184872085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of digital content creation, generating high-quality 3D
characters from single images is challenging, especially given the complexities
of various body poses and the issues of self-occlusion and pose ambiguity. In
this paper, we present CharacterGen, a framework developed to efficiently
generate 3D characters. CharacterGen introduces a streamlined generation
pipeline along with an image-conditioned multi-view diffusion model. This model
effectively calibrates input poses to a canonical form while retaining key
attributes of the input image, thereby addressing the challenges posed by
diverse poses. A transformer-based, generalizable sparse-view reconstruction
model is the other core component of our approach, facilitating the creation of
detailed 3D models from multi-view images. We also adopt a
texture-back-projection strategy to produce high-quality texture maps.
Additionally, we have curated a dataset of anime characters, rendered in
multiple poses and views, to train and evaluate our model. Our approach has
been thoroughly evaluated through quantitative and qualitative experiments,
showing its proficiency in generating 3D characters with high-quality shapes
and textures, ready for downstream applications such as rigging and animation.
- Abstract(参考訳): デジタルコンテンツ作成の分野では、特に身体の複雑度や自己排除の問題やあいまいさを考えると、単一画像から高品質な3D文字を生成することは困難である。
本稿では,3D文字を効率よく生成するフレームワークである characterGen を提案する。
charactergenは、画像条件付きマルチビュー拡散モデルとともに、合理化された生成パイプラインを導入する。
このモデルは、入力画像のキー属性を保持しながら、入力ポーズを標準形式で効果的に校正し、多様なポーズによって生じる課題に対処する。
変換器ベースで一般化可能なスパースビュー再構成モデルは,マルチビュー画像から詳細な3Dモデルを作成する上で,我々のアプローチの中核となるコンポーネントである。
また,高品質なテクスチャマップを作成するためにテクスチャバックプロジェクション戦略も採用した。
さらに、モデルのトレーニングと評価のために、複数のポーズとビューでレンダリングされたアニメ文字のデータセットをキュレートしました。
提案手法は定量的・定性的な実験を通じて徹底的に評価され,高品質な形状とテクスチャを持つ3dキャラクタの生成に熟練しており,リギングやアニメーションなどの下流アプリケーションに対応している。
関連論文リスト
- StdGEN: Semantic-Decomposed 3D Character Generation from Single Images [28.302030751098354]
StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-11-08T17:54:18Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。
前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文 参考訳(メタデータ) (2024-05-26T13:36:45Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。