論文の概要: Beat on Gaze: Learning Stylized Generation of Gaze and Head Dynamics
- arxiv url: http://arxiv.org/abs/2509.17168v1
- Date: Sun, 21 Sep 2025 17:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.145314
- Title: Beat on Gaze: Learning Stylized Generation of Gaze and Head Dynamics
- Title(参考訳): Beat on Gaze: 視線と頭部のダイナミクスを学習する
- Authors: Chengwei Shi, Chong Cao, Xin Tong, Xukun Shen,
- Abstract要約: StyGazeTalkは、同期された視線とヘッドモーションスタイルを生成するオーディオ駆動方式である。
本稿では,視線追跡,音声,頭部ポーズ,3次元顔パラメータからなる高精度マルチモーダルデータセットを提案する。
- 参考スコア(独自算出の注目度): 10.277833759031513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Head and gaze dynamics are crucial in expressive 3D facial animation for conveying emotion and intention. However, existing methods frequently address facial components in isolation, overlooking the intricate coordination between gaze, head motion, and speech. The scarcity of high-quality gaze-annotated datasets hinders the development of data-driven models capable of capturing realistic, personalized gaze control. To address these challenges, we propose StyGazeTalk, an audio-driven method that generates synchronized gaze and head motion styles. We extract speaker-specific motion traits from gaze-head sequences with a multi-layer LSTM structure incorporating a style encoder, enabling the generation of diverse animation styles. We also introduce a high-precision multimodal dataset comprising eye-tracked gaze, audio, head pose, and 3D facial parameters, providing a valuable resource for training and evaluating head and gaze control models. Experimental results demonstrate that our method generates realistic, temporally coherent, and style-aware head-gaze motions, significantly advancing the state-of-the-art in audio-driven facial animation.
- Abstract(参考訳): 頭と視線のダイナミクスは、感情と意図を伝えるために表現力のある3D顔アニメーションに不可欠である。
しかし、既存の方法では、視線、頭部の動き、および音声の複雑な調整を見越して、顔成分を分離して扱うことが多い。
高品質な視線注釈付きデータセットの不足は、現実的でパーソナライズされた視線制御をキャプチャできるデータ駆動モデルの開発を妨げる。
これらの課題に対処するため、私たちはStyGazeTalkを提案し、これは、同期された視線とヘッドモーションスタイルを生成するオーディオ駆動方式である。
本研究では,多層LSTM構造を取り入れた多層LSTM構造を用いて,多様なアニメーションスタイルを生成可能な話者固有動作特性を抽出する。
また、視線追跡、音声、頭部ポーズ、および3次元顔パラメータからなる高精度マルチモーダルデータセットを導入し、頭部および視線制御モデルの訓練および評価に有用な資源を提供する。
実験結果から,本手法は現実的,時間的コヒーレント,スタイルを意識したヘッドゲイズ動作を発生させ,音声駆動型顔アニメーションの最先端性を著しく向上させることが示された。
関連論文リスト
- MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。