論文の概要: Towards Rich Emotions in 3D Avatars: A Text-to-3D Avatar Generation Benchmark
- arxiv url: http://arxiv.org/abs/2412.02508v1
- Date: Tue, 03 Dec 2024 15:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:41.462831
- Title: Towards Rich Emotions in 3D Avatars: A Text-to-3D Avatar Generation Benchmark
- Title(参考訳): 3Dアバターのリッチ感情に向けて:テキストから3Dアバター生成ベンチマーク
- Authors: Haidong Xu, Meishan Zhang, Hao Ju, Zhedong Zheng, Hongyuan Zhu, Erik Cambria, Min Zhang, Hao Fei,
- Abstract要約: 音声(Emo3D)から派生したテキストで感情的にダイナミックな3D顔アバターを生成することは、3Dアバター生成において重要な研究課題となっている。
本稿では,Emo3D生成を再検討し,人間のプロセスからインスピレーションを得て,Emo3Dをテキストから3D表現マッピング(T3DEM)と3Dアバターレンダリング(3DAR)の2つのカスケードステップに分解する。
これらの課題に対処するため,我々はEmo3D生成の研究を進めるための新しいベンチマークを導入する。
- 参考スコア(独自算出の注目度): 78.72350264142987
- License:
- Abstract: Producing emotionally dynamic 3D facial avatars with text derived from spoken words (Emo3D) has been a pivotal research topic in 3D avatar generation. While progress has been made in general-purpose 3D avatar generation, the exploration of generating emotional 3D avatars remains scarce, primarily due to the complexities of identifying and rendering rich emotions from spoken words. This paper reexamines Emo3D generation and draws inspiration from human processes, breaking down Emo3D into two cascading steps: Text-to-3D Expression Mapping (T3DEM) and 3D Avatar Rendering (3DAR). T3DEM is the most crucial step in determining the quality of Emo3D generation and encompasses three key challenges: Expression Diversity, Emotion-Content Consistency, and Expression Fluidity. To address these challenges, we introduce a novel benchmark to advance research in Emo3D generation. First, we present EmoAva, a large-scale, high-quality dataset for T3DEM, comprising 15,000 text-to-3D expression mappings that characterize the aforementioned three challenges in Emo3D generation. Furthermore, we develop various metrics to effectively evaluate models against these identified challenges. Next, to effectively model the consistency, diversity, and fluidity of human expressions in the T3DEM step, we propose the Continuous Text-to-Expression Generator, which employs an autoregressive Conditional Variational Autoencoder for expression code generation, enhanced with Latent Temporal Attention and Expression-wise Attention mechanisms. Finally, to further enhance the 3DAR step on rendering higher-quality subtle expressions, we present the Globally-informed Gaussian Avatar (GiGA) model. GiGA incorporates a global information mechanism into 3D Gaussian representations, enabling the capture of subtle micro-expressions and seamless transitions between emotional states.
- Abstract(参考訳): 音声(Emo3D)から派生したテキストを用いた感情的動的3次元顔アバターの作成は,3次元アバター生成において重要な研究課題となっている。
汎用的な3Dアバター生成の進展はあったが、感情的な3Dアバターの生成の探索は、主に音声からリッチな感情を識別・描画することの複雑さのために、ほとんど行われていない。
本稿では,Emo3D生成を再検討し,人間のプロセスからインスピレーションを得て,Emo3Dをテキストから3D表現マッピング(T3DEM)と3Dアバターレンダリング(3DAR)の2つのカスケードステップに分解する。
T3DEMは、Emo3D生成の品質を決定する上で最も重要なステップであり、表現の多様性、感情の一貫性、表現の流動性という3つの重要な課題を含んでいる。
これらの課題に対処するため,我々はEmo3D生成の研究を進めるための新しいベンチマークを導入する。
まず,T3DEMの大規模かつ高品質なデータセットであるEmoAvaについて述べる。
さらに,これらの課題に対して効果的にモデルを評価するための様々な指標を開発した。
次に、T3DEMステップにおける人間の表現の一貫性、多様性、流動性を効果的にモデル化するために、表現コード生成のための自己回帰的条件変分自動エンコーダを用いた連続テキスト対表現生成器を提案する。
最後に、高品質な微妙な表現をレンダリングする3DARステップをさらに強化するために、Globally-informed Gaussian Avatar (GiGA)モデルを提案する。
GiGAはグローバルな情報メカニズムを3Dガウス表現に組み込んでおり、微妙な微小表現と感情状態間のシームレスな遷移を捉えることができる。
関連論文リスト
- Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description [3.52270271101496]
Emo3Dは、人間の感情の幅広い範囲にまたがる広範な「テキスト画像表現データセット」である。
我々は多種多様なテキスト記述を生成し、感情表現の幅広い範囲を捉えやすくする。
エモ3D」はアニメーションデザイン、バーチャルリアリティ、感情的な人間とコンピュータのインタラクションに優れた応用がある。
論文 参考訳(メタデータ) (2024-10-02T21:31:24Z) - DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。
本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。
実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-08-01T05:46:57Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation
Using only Images [105.92311979305065]
TG-3DFaceは、よりリアルで美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。
TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを達成する。
論文 参考訳(メタデータ) (2023-08-31T14:26:33Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - Controllable 3D Generative Adversarial Face Model via Disentangling
Shape and Appearance [63.13801759915835]
3次元顔モデリングはコンピュータビジョンとコンピュータグラフィックスの研究の活発な領域である。
本稿では,識別と表現を分離できる新しい3次元顔生成モデルを提案する。
論文 参考訳(メタデータ) (2022-08-30T13:40:48Z) - 3D to 4D Facial Expressions Generation Guided by Landmarks [35.61963927340274]
1つの入力3D中性顔から動的3D (4D) 表情を生成できるか?
まず,メッシュエンコーダ・デコーダアーキテクチャ(expr-ed)を提案する。このアーキテクチャは,一連の3dランドマークを利用して,中立的な面から表現力のある3d顔を生成する。
マニホールド値のGANを用いて表情の時間的ダイナミクスをモデル化し、それを4Dに拡張する。
論文 参考訳(メタデータ) (2021-05-16T15:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。