論文の概要: When Words Smile: Generating Diverse Emotional Facial Expressions from Text
- arxiv url: http://arxiv.org/abs/2412.02508v3
- Date: Thu, 31 Jul 2025 07:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:44.638633
- Title: When Words Smile: Generating Diverse Emotional Facial Expressions from Text
- Title(参考訳): 言葉のスマイル:テキストから感情の表情を生成する
- Authors: Haidong Xu, Meishan Zhang, Hao Ju, Zhedong Zheng, Erik Cambria, Min Zhang, Hao Fei,
- Abstract要約: 本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
- 参考スコア(独自算出の注目度): 72.19705878257204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling digital humans to express rich emotions has significant applications in dialogue systems, gaming, and other interactive scenarios. While recent advances in talking head synthesis have achieved impressive results in lip synchronization, they tend to overlook the rich and dynamic nature of facial expressions. To fill this critical gap, we introduce an end-to-end text-to-expression model that explicitly focuses on emotional dynamics. Our model learns expressive facial variations in a continuous latent space and generates expressions that are diverse, fluid, and emotionally coherent. To support this task, we introduce EmoAva, a large-scale and high-quality dataset containing 15,000 text-3D expression pairs. Extensive experiments on both existing datasets and EmoAva demonstrate that our method significantly outperforms baselines across multiple evaluation metrics, marking a significant advancement in the field.
- Abstract(参考訳): デジタル人間に豊かな感情を表現させることは、対話システム、ゲーム、その他の対話的なシナリオに重要な応用をもたらす。
近年の音声頭合成の進歩は唇の同期において顕著な成果を上げているが、表情の豊かでダイナミックな性質を軽視する傾向にある。
この重要なギャップを埋めるために、感情力学に焦点をあてたエンドツーエンドのテキスト対表現モデルを導入する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
このタスクを支援するために、15,000のテキスト3D式ペアを含む大規模かつ高品質なデータセットであるEmoAvaを紹介した。
既存のデータセットとEmoAvaの両方に対する大規模な実験により、我々の手法は複数の評価指標でベースラインを大幅に上回っており、この分野における大きな進歩を示している。
関連論文リスト
- Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description [3.52270271101496]
Emo3Dは、人間の感情の幅広い範囲にまたがる広範な「テキスト画像表現データセット」である。
我々は多種多様なテキスト記述を生成し、感情表現の幅広い範囲を捉えやすくする。
エモ3D」はアニメーションデザイン、バーチャルリアリティ、感情的な人間とコンピュータのインタラクションに優れた応用がある。
論文 参考訳(メタデータ) (2024-10-02T21:31:24Z) - DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。
本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。
実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-08-01T05:46:57Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation
Using only Images [105.92311979305065]
TG-3DFaceは、よりリアルで美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。
TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを達成する。
論文 参考訳(メタデータ) (2023-08-31T14:26:33Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - Controllable 3D Generative Adversarial Face Model via Disentangling
Shape and Appearance [63.13801759915835]
3次元顔モデリングはコンピュータビジョンとコンピュータグラフィックスの研究の活発な領域である。
本稿では,識別と表現を分離できる新しい3次元顔生成モデルを提案する。
論文 参考訳(メタデータ) (2022-08-30T13:40:48Z) - 3D to 4D Facial Expressions Generation Guided by Landmarks [35.61963927340274]
1つの入力3D中性顔から動的3D (4D) 表情を生成できるか?
まず,メッシュエンコーダ・デコーダアーキテクチャ(expr-ed)を提案する。このアーキテクチャは,一連の3dランドマークを利用して,中立的な面から表現力のある3d顔を生成する。
マニホールド値のGANを用いて表情の時間的ダイナミクスをモデル化し、それを4Dに拡張する。
論文 参考訳(メタデータ) (2021-05-16T15:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。