Fugu-MT 論文翻訳(概要): When Words Smile: Generating Diverse Emotional Facial Expressions from Text

論文の概要: When Words Smile: Generating Diverse Emotional Facial Expressions from Text

arxiv url: http://arxiv.org/abs/2412.02508v3
Date: Thu, 31 Jul 2025 07:07:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 15:10:44.638633
Title: When Words Smile: Generating Diverse Emotional Facial Expressions from Text
Title（参考訳）: 言葉のスマイル:テキストから感情の表情を生成する
Authors: Haidong Xu, Meishan Zhang, Hao Ju, Zhedong Zheng, Erik Cambria, Min Zhang, Hao Fei,
Abstract要約: 本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
参考スコア（独自算出の注目度）: 72.19705878257204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Enabling digital humans to express rich emotions has significant applications in dialogue systems, gaming, and other interactive scenarios. While recent advances in talking head synthesis have achieved impressive results in lip synchronization, they tend to overlook the rich and dynamic nature of facial expressions. To fill this critical gap, we introduce an end-to-end text-to-expression model that explicitly focuses on emotional dynamics. Our model learns expressive facial variations in a continuous latent space and generates expressions that are diverse, fluid, and emotionally coherent. To support this task, we introduce EmoAva, a large-scale and high-quality dataset containing 15,000 text-3D expression pairs. Extensive experiments on both existing datasets and EmoAva demonstrate that our method significantly outperforms baselines across multiple evaluation metrics, marking a significant advancement in the field.
Abstract（参考訳）: デジタル人間に豊かな感情を表現させることは、対話システム、ゲーム、その他の対話的なシナリオに重要な応用をもたらす。近年の音声頭合成の進歩は唇の同期において顕著な成果を上げているが、表情の豊かでダイナミックな性質を軽視する傾向にある。この重要なギャップを埋めるために、感情力学に焦点をあてたエンドツーエンドのテキスト対表現モデルを導入する。我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。このタスクを支援するために、15,000のテキスト3D式ペアを含む大規模かつ高品質なデータセットであるEmoAvaを紹介した。既存のデータセットとEmoAvaの両方に対する大規模な実験により、我々の手法は複数の評価指標でベースラインを大幅に上回っており、この分野における大きな進歩を示している。

関連論文リスト

Think-Before-Draw: Decomposing Emotion Semantics & Fine-Grained Controllable Expressive Talking Head Generation [7.362433184546492]
コンピュータビジョンとマルチモーダル人工知能の交差点における重要な研究領域として、感情的トーキー生成が出現している。本研究では,2つの課題に対処するThink-Before-Drawフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T03:33:46Z)
From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文参考訳（メタデータ） (2025-07-16T04:15:06Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
Enhancing Multi-Label Emotion Analysis and Corresponding Intensities for Ethiopian Languages [7.18917640223178]
我々はEthioEmoデータセットのようなマルチラベル設定で感情を注釈付けする。各ラベル付けされた感情の強さに関するアノテーションを含める。我々は、様々な最先端エンコーダのみの事前訓練言語モデル(PLM)とデコーダのみの大規模言語モデル(LLM)を評価する。
論文参考訳（メタデータ） (2025-03-24T00:34:36Z)
MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。 DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2025-01-03T13:43:21Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description [3.52270271101496]
Emo3Dは、人間の感情の幅広い範囲にまたがる広範な「テキスト画像表現データセット」である。我々は多種多様なテキスト記述を生成し、感情表現の幅広い範囲を捉えやすくする。エモ3D」はアニメーションデザイン、バーチャルリアリティ、感情的な人間とコンピュータのインタラクションに優れた応用がある。
論文参考訳（メタデータ） (2024-10-02T21:31:24Z)
DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文参考訳（メタデータ） (2024-09-25T17:59:45Z)
EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文参考訳（メタデータ） (2024-08-01T05:46:57Z)
EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文参考訳（メタデータ） (2024-03-19T16:33:26Z)
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文参考訳（メタデータ） (2024-03-14T14:31:22Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文参考訳（メタデータ） (2023-10-04T17:12:18Z)
Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images [105.92311979305065]
TG-3DFaceは、よりリアルで美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。 TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを達成する。
論文参考訳（メタデータ） (2023-08-31T14:26:33Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)
Next3D: Generative Neural Texture Rasterization for 3D-Aware Head Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-21T06:40:46Z)
Controllable 3D Generative Adversarial Face Model via Disentangling Shape and Appearance [63.13801759915835]
3次元顔モデリングはコンピュータビジョンとコンピュータグラフィックスの研究の活発な領域である。本稿では,識別と表現を分離できる新しい3次元顔生成モデルを提案する。
論文参考訳（メタデータ） (2022-08-30T13:40:48Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)
3D to 4D Facial Expressions Generation Guided by Landmarks [35.61963927340274]
1つの入力3D中性顔から動的3D (4D) 表情を生成できるか? まず,メッシュエンコーダ・デコーダアーキテクチャ(expr-ed)を提案する。このアーキテクチャは,一連の3dランドマークを利用して,中立的な面から表現力のある3d顔を生成する。マニホールド値のGANを用いて表情の時間的ダイナミクスをモデル化し、それを4Dに拡張する。
論文参考訳（メタデータ） (2021-05-16T15:52:29Z)
Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network for Emotional Conversation Generation [25.808037796936766]
実世界の会話では,マルチソース情報から感情を直感的に知覚する。感情的会話生成のための異種グラフモデルを提案する。実験結果は,本モデルがマルチソース知識から感情を効果的に知覚できることを示した。
論文参考訳（メタデータ） (2020-12-09T06:09:31Z)
Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文参考訳（メタデータ） (2020-06-22T13:03:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。