論文の概要: Multimodal Integration Challenges in Emotionally Expressive Child Avatars for Training Applications
- arxiv url: http://arxiv.org/abs/2506.13477v2
- Date: Tue, 08 Jul 2025 14:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 14:27:12.853783
- Title: Multimodal Integration Challenges in Emotionally Expressive Child Avatars for Training Applications
- Title(参考訳): 訓練用感情表現型児童アバターにおけるマルチモーダル統合の課題
- Authors: Pegah Salehi, Sajad Amouei Sheshkal, Vajira Thambawita, Michael A. Riegler, Pål Halvorsen,
- Abstract要約: 本論文では,Unreal Engine 5 MetaHumanレンダリングとNVIDIA Omniverse Audio2Faceを組み合わせたリアルタイムアーキテクチャを提案する。
我々は、GPU集約レンダリングから音声生成を分離するために、2つのPCセットアップを使用し、デスクトップとVRでの低レイテンシインタラクションを可能にした。
感情は一般に認識され、特に悲しみと喜びが認められたが、怒りは音声なしでは検出しにくく、高覚醒表現における声の役割を強調した。
- 参考スコア(独自算出の注目度): 3.2772052812169856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic facial emotion is essential for believable AI-generated avatars, yet most systems remain visually static, limiting their use in simulations like virtual training for investigative interviews with abused children. We present a real-time architecture combining Unreal Engine 5 MetaHuman rendering with NVIDIA Omniverse Audio2Face to generate facial expressions from vocal prosody in photorealistic child avatars. Due to limited TTS options, both avatars were voiced using young adult female models from two systems to better fit character profiles, introducing a voice-age mismatch. This confound may affect audiovisual alignment. We used a two-PC setup to decouple speech generation from GPU-intensive rendering, enabling low-latency interaction in desktop and VR. A between-subjects study (N=70) compared audio+visual vs. visual-only conditions as participants rated emotional clarity, facial realism, and empathy for avatars expressing joy, sadness, and anger. While emotions were generally recognized - especially sadness and joy - anger was harder to detect without audio, highlighting the role of voice in high-arousal expressions. Interestingly, silencing clips improved perceived realism by removing mismatches between voice and animation, especially when tone or age felt incongruent. These results emphasize the importance of audiovisual congruence: mismatched voice undermines expression, while a good match can enhance weaker visuals - posing challenges for emotionally coherent avatars in sensitive contexts.
- Abstract(参考訳): ダイナミックな顔の感情は、AIが生成するアバターにとって不可欠だが、ほとんどのシステムは視覚的に静的であり、虐待された子供に対する調査インタビューのための仮想トレーニングのようなシミュレーションでの使用を制限する。
本稿では,Unreal Engine 5 MetaHumanレンダリングとNVIDIA Omniverse Audio2Faceを組み合わせたリアルタイムアーキテクチャを提案する。
TTSの選択肢が限られていたため、両方のアバターは2つのシステムから若い成人女性モデルを使用して文字プロファイルを適合させ、音声エイジのミスマッチを導入した。
このコンファウンドは、オーディオ視覚アライメントに影響を及ぼすかもしれない。
我々は、GPU集約レンダリングから音声生成を分離するために、2つのPCセットアップを使用し、デスクトップとVRでの低レイテンシインタラクションを可能にした。
感情的明瞭さ, 顔のリアリズム, アバターに対する共感, 喜び, 悲しみ, 怒りを評価対象として, 音声+視覚的条件と視覚的条件の比較実験(N=70)を行った。
感情は一般に認識され、特に悲しみと喜びが認められたが、怒りは音声なしでは検出しにくく、高覚醒表現における声の役割を強調した。
興味深いことに、サイレンシングクリップは、声とアニメーションのミスマッチを取り除くことで、知覚リアリズムを改善した。
これらの結果は、聴覚的コングルーエンスの重要性を強調しており、不一致の音声は表現を損なうが、良い一致はより弱い視覚性を高める。
関連論文リスト
- EVA: Expressive Virtual Avatars from Multi-view Videos [51.33851869426057]
本稿では,アクター固有の,完全に制御可能な,表現力のある人間のアバターフレームワークであるExpressive Virtual Avatars (EVA)を紹介する。
EVAは、表情、身体の動き、手の動きの独立的な制御を可能にしながら、高忠実でライフライクなレンダリングをリアルタイムで実現している。
この研究は、完全に乾燥可能なデジタル人間モデルに向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2025-05-21T11:22:52Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。
提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。
提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文 参考訳(メタデータ) (2024-07-17T11:32:16Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。
モデルが任意のアイデンティティ、感情、言語に適応できることを示します。
提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-03-21T02:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。