論文の概要: TalkingEyes: Pluralistic Speech-Driven 3D Eye Gaze Animation
- arxiv url: http://arxiv.org/abs/2501.09921v1
- Date: Fri, 17 Jan 2025 02:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:43.734352
- Title: TalkingEyes: Pluralistic Speech-Driven 3D Eye Gaze Animation
- Title(参考訳): TalkingEyes: 複数の言語駆動型3D視線アニメーション
- Authors: Yixiang Zhuang, Chunshan Ma, Yao Cheng, Xuan Cheng, Jing Liao, Juncong Lin,
- Abstract要約: 音声と調和して多様な3次元視線の動きを生成できる新しいデータ駆動方式を提案する。
私たちのTalkingEyesは、音声駆動の3D顔の動き生成装置と統合されており、音声から視線の動き、目まわし、頭部の動き、顔の動きを総合的に合成することができる。
- 参考スコア(独自算出の注目度): 15.249802238430908
- License:
- Abstract: Although significant progress has been made in the field of speech-driven 3D facial animation recently, the speech-driven animation of an indispensable facial component, eye gaze, has been overlooked by recent research. This is primarily due to the weak correlation between speech and eye gaze, as well as the scarcity of audio-gaze data, making it very challenging to generate 3D eye gaze motion from speech alone. In this paper, we propose a novel data-driven method which can generate diverse 3D eye gaze motions in harmony with the speech. To achieve this, we firstly construct an audio-gaze dataset that contains about 14 hours of audio-mesh sequences featuring high-quality eye gaze motion, head motion and facial motion simultaneously. The motion data is acquired by performing lightweight eye gaze fitting and face reconstruction on videos from existing audio-visual datasets. We then tailor a novel speech-to-motion translation framework in which the head motions and eye gaze motions are jointly generated from speech but are modeled in two separate latent spaces. This design stems from the physiological knowledge that the rotation range of eyeballs is less than that of head. Through mapping the speech embedding into the two latent spaces, the difficulty in modeling the weak correlation between speech and non-verbal motion is thus attenuated. Finally, our TalkingEyes, integrated with a speech-driven 3D facial motion generator, can synthesize eye gaze motion, eye blinks, head motion and facial motion collectively from speech. Extensive quantitative and qualitative evaluations demonstrate the superiority of the proposed method in generating diverse and natural 3D eye gaze motions from speech. The project page of this paper is: https://lkjkjoiuiu.github.io/TalkingEyes_Home/
- Abstract(参考訳): 近年,音声駆動型3次元顔アニメーションの分野では大きな進展が見られたが,近年の研究では,不必要な顔成分である目視の音声駆動型アニメーションが見過ごされている。
これは主に、音声と目視の相関が弱いことと、オーディオ・ゲイズデータの不足のためであり、音声だけで3D目視の動きを生成するのは非常に困難である。
本稿では,多様な3次元眼球運動を音声と調和して生成できる新しいデータ駆動方式を提案する。
そこで我々はまず,高品質な視線の動き,頭部の動き,顔の動きを同時に備えた約14時間のオーディオ・メシュ・シーケンスを含むオーディオ・ガゼ・データセットを構築した。
既存の音声・視覚データセットのビデオに対して、軽量のアイアイフィッティングと顔再構成を行うことにより、モーションデータを取得する。
次に、音声から頭部の動きと視線の動きを共同で生成するが、2つの異なる潜在空間でモデル化する新しい音声間翻訳フレームワークを調整する。
このデザインは、眼球の回転範囲が頭よりも小さいという生理学的知識に由来する。
この2つの潜在空間に埋め込まれた音声をマッピングすることにより、音声と非言語運動の弱い相関をモデル化する難しさが軽減される。
最後に、音声駆動の3D顔の動き生成装置と統合されたTalkingEyesは、音声から目の動き、目まわし、頭の動き、顔の動きを総合的に合成することができる。
広範に定量的および定性的評価を行った結果,音声から多種多様な自然な3次元眼球運動を生成する上で,提案手法の優位性が示された。
本論文のプロジェクトページは以下のとおりである。
関連論文リスト
- Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Learning Landmarks Motion from Speech for Speaker-Agnostic 3D Talking
Heads Generation [9.242997749920498]
本稿では,生音声入力から3次元音声頭を生成する新しい手法を提案する。
3D音声ヘッド生成におけるランドマークの使用は、一貫性、信頼性、手動アノテーションの必要性の回避など、さまざまなメリットを提供する。
論文 参考訳(メタデータ) (2023-06-02T10:04:57Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。