論文の概要: LSF-Animation: Label-Free Speech-Driven Facial Animation via Implicit Feature Representation
- arxiv url: http://arxiv.org/abs/2510.21864v1
- Date: Thu, 23 Oct 2025 10:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.62533
- Title: LSF-Animation: Label-Free Speech-Driven Facial Animation via Implicit Feature Representation
- Title(参考訳): LSFアニメーション:意図的特徴表現によるラベルなし音声駆動型顔アニメーション
- Authors: Xin Lu, Chuanqing Zhuang, Chenxi Jin, Zhengda Lu, Yiqun Wang, Wu Liu, Jun Xiao,
- Abstract要約: 明示的な感情やアイデンティティの特徴表現への依存を解消する新しいフレームワークであるLSF-Animationを提案する。
具体的には、LSFアニメーションは、音声から感情情報を暗黙的に抽出し、中立的な顔メッシュから識別特徴をキャプチャする。
本手法は,感情表現性,アイデンティティの一般化,アニメーションリアリズムの観点から,近年の最先端アプローチを超越した手法である。
- 参考スコア(独自算出の注目度): 37.790140423936776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech-driven 3D facial animation has attracted increasing interest since its potential to generate expressive and temporally synchronized digital humans. While recent works have begun to explore emotion-aware animation, they still depend on explicit one-hot encodings to represent identity and emotion with given emotion and identity labels, which limits their ability to generalize to unseen speakers. Moreover, the emotional cues inherently present in speech are often neglected, limiting the naturalness and adaptability of generated animations. In this work, we propose LSF-Animation, a novel framework that eliminates the reliance on explicit emotion and identity feature representations. Specifically, LSF-Animation implicitly extracts emotion information from speech and captures the identity features from a neutral facial mesh, enabling improved generalization to unseen speakers and emotional states without requiring manual labels. Furthermore, we introduce a Hierarchical Interaction Fusion Block (HIFB), which employs a fusion token to integrate dual transformer features and more effectively integrate emotional, motion-related and identity-related cues. Extensive experiments conducted on the 3DMEAD dataset demonstrate that our method surpasses recent state-of-the-art approaches in terms of emotional expressiveness, identity generalization, and animation realism. The source code will be released at: https://github.com/Dogter521/LSF-Animation.
- Abstract(参考訳): 音声駆動の3D顔アニメーションは、表現的かつ時間的に同期されたデジタル人間を生成する可能性から関心を集めている。
最近の作品では感情を意識したアニメーションの探索が始まっているが、それでも特定の感情とアイデンティティラベルでアイデンティティと感情を表現するために、明示的なワンホットのエンコーディングに依存しているため、認識できない話者に一般化する能力は制限されている。
さらに、音声に固有の感情的手がかりは無視されることが多く、生成したアニメーションの自然性と適応性が制限される。
本研究では,明示的な感情やアイデンティティの特徴表現への依存を解消する新しいフレームワークであるLSF-Animationを提案する。
具体的には、LSF-Animationは、音声から感情情報を暗黙的に抽出し、中立的な顔メッシュから識別特徴をキャプチャし、手動ラベルを必要とせずに、目に見えない話者や感情状態への一般化を改善する。
さらに,2つのトランスフォーマー機能を統合し,感情的,動作的,同一性に関連する手がかりを効果的に統合するために,融合トークンを用いた階層的相互作用融合ブロック(HIFB)を導入する。
3DMEADデータセットを用いた大規模な実験により,感情表現性,アイデンティティの一般化,アニメーションリアリズムの観点から,近年の最先端のアプローチを超越した結果が得られた。
ソースコードは、https://github.com/Dogter521/LSF-Animation.comでリリースされる。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation [43.04371187071256]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment [5.516575655881858]
本稿では、感情のプロンプトとして自然言語を活用することにより、任意のスタイルの制御を可能にする手法を提案する。
提案手法は,表現力のある表情生成を実現し,所望のスタイルを効果的に伝達する柔軟性を向上する。
論文 参考訳(メタデータ) (2023-08-28T09:35:13Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。