論文の概要: From Flat to Feeling: A Feasibility and Impact Study on Dynamic Facial Emotions in AI-Generated Avatars
- arxiv url: http://arxiv.org/abs/2506.13477v1
- Date: Mon, 16 Jun 2025 13:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.584085
- Title: From Flat to Feeling: A Feasibility and Impact Study on Dynamic Facial Emotions in AI-Generated Avatars
- Title(参考訳): フラットからフィーリングへ:AI生成アバターにおける動的顔面感情の可能性と影響
- Authors: Pegah Salehi, Sajad Amouei Sheshkal, Vajira Thambawita, Pål Halvorsen,
- Abstract要約: 我々は,Unreal Engine 5 MetaHumanレンダリングとNVIDIA Omniverse Audio2Faceを併用したリアルタイムアーキテクチャを導入し,評価した。
その結果、アバターは、悲しみと喜びで高い識別率を達成することで、感情を認知的に表現できることが示された。
しかし、怒りの認識は音声を使わずに著しく低下し、高覚醒感情に対する同調的な声道の重要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 1.7838577116306524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic facial emotion is essential for believable AI-generated avatars; however, most systems remain visually inert, limiting their utility in high-stakes simulations such as virtual training for investigative interviews with abused children. We introduce and evaluate a real-time architecture fusing Unreal Engine 5 MetaHuman rendering with NVIDIA Omniverse Audio2Face to translate vocal prosody into high-fidelity facial expressions on photorealistic child avatars. We implemented a distributed two-PC setup that decouples language processing and speech synthesis from GPU-intensive rendering, designed to support low-latency interaction in desktop and VR environments. A between-subjects study ($N=70$) using audio+visual and visual-only conditions assessed perceptual impacts as participants rated emotional clarity, facial realism, and empathy for two avatars expressing joy, sadness, and anger. Results demonstrate that avatars could express emotions recognizably, with sadness and joy achieving high identification rates. However, anger recognition significantly dropped without audio, highlighting the importance of congruent vocal cues for high-arousal emotions. Interestingly, removing audio boosted perceived facial realism, suggesting that audiovisual desynchrony remains a key design challenge. These findings confirm the technical feasibility of generating emotionally expressive avatars and provide guidance for improving non-verbal communication in sensitive training simulations.
- Abstract(参考訳): ダイナミックな顔の感情は、AIが生成するアバターにとって不可欠であるが、ほとんどのシステムは視覚的に不活性であり、虐待された子供に対する調査面接のためのバーチャルトレーニングのような高精細なシミュレーションにおいて有用性を制限している。
我々は,Unreal Engine 5 MetaHumanレンダリングとNVIDIA Omniverse Audio2Faceを併用したリアルタイムアーキテクチャを導入し,評価した。
デスクトップとVR環境における低レイテンシインタラクションをサポートするように設計されたGPU集約レンダリングから,言語処理と音声合成を分離する分散2PC構成を実装した。
参加者は、喜び、悲しみ、怒りを表す2つのアバターに対して、感情的明瞭さ、顔のリアリズム、共感を評価された。
その結果、アバターは、悲しみと喜びで高い識別率を達成することで、感情を認知的に表現できることが示された。
しかし、怒りの認識は音声を使わずに著しく低下し、高覚醒感情に対する同調的な声道の重要性が浮き彫りになった。
興味深いことに、音声を除去することで認識された顔のリアリズムが向上し、オーディオ視覚の非同期が重要な設計課題であることを示している。
これらの結果から,感情表現型アバター作成の技術的実現可能性を確認し,センシティブなトレーニングシミュレーションにおける非言語コミュニケーション改善のためのガイダンスを提供する。
関連論文リスト
- VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。
我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。
MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文 参考訳(メタデータ) (2025-07-08T15:04:17Z) - HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters [14.594698765723756]
HunyuanVideo-Avatarは動的、感情制御可能、マルチキャラクタ対話ビデオを同時に生成できるモデルである。
キャラクタイメージインジェクションモジュールは、従来の追加ベースのキャラクタコンディショニングスキームを置き換えるように設計されている。
AEM(Audio Emotion Module)を導入し、感情参照画像から感情手がかりを抽出し、ターゲット生成ビデオに転送する。
音声駆動型キャラクタを潜在レベルフェイスマスクで分離するために, 顔認識型オーディオアダプタ (FAA) を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:57:27Z) - EVA: Expressive Virtual Avatars from Multi-view Videos [51.33851869426057]
本稿では,アクター固有の,完全に制御可能な,表現力のある人間のアバターフレームワークであるExpressive Virtual Avatars (EVA)を紹介する。
EVAは、表情、身体の動き、手の動きの独立的な制御を可能にしながら、高忠実でライフライクなレンダリングをリアルタイムで実現している。
この研究は、完全に乾燥可能なデジタル人間モデルに向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2025-05-21T11:22:52Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。
提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。
提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文 参考訳(メタデータ) (2024-07-17T11:32:16Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。
モデルが任意のアイデンティティ、感情、言語に適応できることを示します。
提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-03-21T02:33:27Z) - Speech Driven Talking Face Generation from a Single Image and an Emotion
Condition [28.52180268019401]
音声駆動音声合成における視覚的感情表現のレンダリングのための新しい手法を提案する。
本研究では, 音声音声, 単一顔画像, カテゴリー感情ラベルを入力として, エンドツーエンドの音声音声生成システムの設計を行う。
画像品質,視覚的同期,視覚的感情表現を客観的に評価した結果,提案システムは最先端のベースラインシステムよりも優れていた。
論文 参考訳(メタデータ) (2020-08-08T20:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。