論文の概要: CorrTalk: Correlation Between Hierarchical Speech and Facial Activity
Variances for 3D Animation
- arxiv url: http://arxiv.org/abs/2310.11295v1
- Date: Tue, 17 Oct 2023 14:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:29:49.804837
- Title: CorrTalk: Correlation Between Hierarchical Speech and Facial Activity
Variances for 3D Animation
- Title(参考訳): CorrTalk:3次元アニメーションにおける階層型音声と顔活動変数の相関
- Authors: Zhaojie Chu, Kailing Guo, Xiaofen Xing, Yilin Lan, Bolun Cai, and
Xiangmin Xu
- Abstract要約: 音声駆動の3D顔アニメーションは、研究の関心が高まる中で難しいクロスモーダルなタスクである。
既存のアプローチはしばしば、単一レベルの音声特徴を顔アニメーション全体に直接マッピングすることで、プロセスを単純化する。
本稿では,階層型音声特徴と顔活動の時間的相関を効果的に確立する新しいフレームワークであるCorrTalkを提案する。
- 参考スコア(独自算出の注目度): 12.178057082024214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D facial animation is a challenging cross-modal task that has
attracted growing research interest. During speaking activities, the mouth
displays strong motions, while the other facial regions typically demonstrate
comparatively weak activity levels. Existing approaches often simplify the
process by directly mapping single-level speech features to the entire facial
animation, which overlook the differences in facial activity intensity leading
to overly smoothed facial movements. In this study, we propose a novel
framework, CorrTalk, which effectively establishes the temporal correlation
between hierarchical speech features and facial activities of different
intensities across distinct regions. A novel facial activity intensity metric
is defined to distinguish between strong and weak facial activity, obtained by
computing the short-time Fourier transform of facial vertex displacements.
Based on the variances in facial activity, we propose a dual-branch decoding
framework to synchronously synthesize strong and weak facial activity, which
guarantees wider intensity facial animation synthesis. Furthermore, a weighted
hierarchical feature encoder is proposed to establish temporal correlation
between hierarchical speech features and facial activity at different
intensities, which ensures lip-sync and plausible facial expressions. Extensive
qualitatively and quantitatively experiments as well as a user study indicate
that our CorrTalk outperforms existing state-of-the-art methods. The source
code and supplementary video are publicly available at:
https://zjchu.github.io/projects/CorrTalk/
- Abstract(参考訳): 音声駆動の3d顔アニメーションは、研究の関心を集めているクロスモーダルな課題である。
発声活動中、口は強い動きを示し、他の顔領域は一般的に比較的弱い活動レベルを示す。
既存のアプローチでは、顔のアニメーション全体に単一レベルの音声特徴を直接マッピングすることで、プロセスを単純化することが多い。
本研究では,階層型音声特徴と異なる領域における異なる強度の顔活動の時間的相関を効果的に確立する新しいフレームワークであるCorrTalkを提案する。
顔の頂点変位の短時間フーリエ変換を計算し, 顔活動の強さと弱さを識別するために, 新たな顔活動強度指標を定式化した。
顔活動のバラツキに基づいて, 顔動作を同期的に合成するデュアルブランチデコーディングフレームワークを提案し, より高強度な顔アニメーション合成を保証した。
さらに, 重み付き階層的特徴エンコーダを提案し, 音声特徴と顔活動の時間的相関を異なる強度で確立し, 唇同期とプラウジブルな表情を確実にする。
定性的かつ定量的な実験とユーザスタディは、CorrTalkが既存の最先端手法よりも優れていることを示している。
ソースコードと補足ビデオは、https://zjchu.github.io/projects/CorrTalk/で公開されている。
関連論文リスト
- KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Speech-Driven 3D Face Animation with Composite and Regional Facial
Movements [30.348768852726295]
音声駆動の3D顔アニメーションは、人間の顔の動きに固有の複雑さと変動性のために大きな課題を提起する。
本稿では,音声駆動型3次元顔画像における顔の動きの複合的・局所的特性を両立させることの重要性を強調した。
論文 参考訳(メタデータ) (2023-08-10T08:42:20Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。