論文の概要: Evaluation of Generative Models for Emotional 3D Animation Generation in VR
- arxiv url: http://arxiv.org/abs/2512.16081v1
- Date: Thu, 18 Dec 2025 01:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.876585
- Title: Evaluation of Generative Models for Emotional 3D Animation Generation in VR
- Title(参考訳): VRにおける感情3次元アニメーション生成のための生成モデルの評価
- Authors: Kiran Chhatre, Renan Guarese, Andrii Matviienko, Christopher Peters,
- Abstract要約: 仮想リアリティ(VR)環境における感情的な3次元アニメーション生成モデルの評価を行った。
2つの感情的幸福(高覚醒)と中性(中覚醒)の3つの状態における感情的品質について検討した。
その結果、感情を明示的にモデル化する手法は、音声駆動の同期にのみ焦点を絞った方法に比べて、認識精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 14.647008099740356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social interactions incorporate nonverbal signals to convey emotions alongside speech, including facial expressions and body gestures. Generative models have demonstrated promising results in creating full-body nonverbal animations synchronized with speech; however, evaluations using statistical metrics in 2D settings fail to fully capture user-perceived emotions, limiting our understanding of model effectiveness. To address this, we evaluate emotional 3D animation generative models within a Virtual Reality (VR) environment, emphasizing user-centric metrics emotional arousal realism, naturalness, enjoyment, diversity, and interaction quality in a real-time human-agent interaction scenario. Through a user study (N=48), we examine perceived emotional quality for three state of the art speech-driven 3D animation methods across two emotions happiness (high arousal) and neutral (mid arousal). Additionally, we compare these generative models against real human expressions obtained via a reconstruction-based method to assess both their strengths and limitations and how closely they replicate real human facial and body expressions. Our results demonstrate that methods explicitly modeling emotions lead to higher recognition accuracy compared to those focusing solely on speech-driven synchrony. Users rated the realism and naturalness of happy animations significantly higher than those of neutral animations, highlighting the limitations of current generative models in handling subtle emotional states. Generative models underperformed compared to reconstruction-based methods in facial expression quality, and all methods received relatively low ratings for animation enjoyment and interaction quality, emphasizing the importance of incorporating user-centric evaluations into generative model development. Finally, participants positively recognized animation diversity across all generative models.
- Abstract(参考訳): 社会的相互作用には、非言語的な信号が組み込まれ、表情や身体のジェスチャーなど、音声と共に感情を伝える。
生成モデルは、音声と同期したフルボディの非言語アニメーションを作成するという有望な結果を示しているが、2次元設定における統計的指標を用いた評価は、ユーザーの知覚した感情を完全に捉えることができず、モデルの有効性の理解が制限される。
そこで我々は,仮想現実感(VR)環境における感情的3次元アニメーション生成モデルの評価を行い,リアルタイムの人間とエージェントのインタラクションシナリオにおいて,ユーザ中心の感情的覚醒リアリズム,自然性,楽しさ,多様性,相互作用品質を強調した。
ユーザスタディ(N=48)を通じて,2つの感情的幸福(高覚醒)と中性(中覚醒)にまたがる3つの最先端の音声駆動3Dアニメーションの感情的品質について検討した。
さらに, これらの生成モデルと, 再現法を用いて得られた実際の人間の表情を比較し, それらの強さと限界と, 実際の人の表情と身体の表情がいかに密に再現されているかを評価する。
その結果、感情を明示的にモデル化する手法は、音声駆動の同期にのみ焦点を絞った方法に比べて、認識精度が高いことがわかった。
ユーザーは、幸せなアニメーションの現実性と自然性は中立的なアニメーションよりも著しく高く評価し、微妙な感情状態を扱う際の現在の生成モデルの限界を強調した。
表情の質の再現に基づく手法と比較して、生成モデルは性能が劣り、全ての手法はアニメーションの楽しみや相互作用の質に対して比較的低い評価を受け、ユーザ中心の評価を生成モデル開発に取り入れることの重要性を強調した。
最後に、参加者はすべての生成モデルにまたがってアニメーションの多様性を肯定的に認識した。
関連論文リスト
- Human Feedback Driven Dynamic Speech Emotion Recognition [0.0]
この研究は特に感情的な3Dアバターのアニメーションに焦点を当てている。
本稿では,従来の音声感情認識モデルの訓練を含む多段階手法を提案する。
ディリクレ分布に基づく感情混合をモデル化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T17:25:27Z) - EVA: Expressive Virtual Avatars from Multi-view Videos [51.33851869426057]
本稿では,アクター固有の,完全に制御可能な,表現力のある人間のアバターフレームワークであるExpressive Virtual Avatars (EVA)を紹介する。
EVAは、表情、身体の動き、手の動きの独立的な制御を可能にしながら、高忠実でライフライクなレンダリングをリアルタイムで実現している。
この研究は、完全に乾燥可能なデジタル人間モデルに向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2025-05-21T11:22:52Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - ProbTalk3D: Non-Deterministic Emotion Controllable Speech-Driven 3D Facial Animation Synthesis Using VQ-VAE [0.0]
感情と非決定主義は多様で感情に富んだ顔のアニメーションを生成するために不可欠である、と我々は主張する。
本稿では,感情制御可能な音声駆動3次元顔画像合成のための非決定論的ニューラルネットワーク手法ProbTalk3Dを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:53:05Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。