論文の概要: DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation
- arxiv url: http://arxiv.org/abs/2311.04766v2
- Date: Mon, 13 Nov 2023 02:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:26:07.240178
- Title: DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation
- Title(参考訳): DualTalker: 音声駆動型3次元顔アニメーションのためのクロスモーダルデュアルラーニングアプローチ
- Authors: Guinan Su, Yanwu Yang, Zhifeng Li
- Abstract要約: データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 10.73030153404956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, audio-driven 3D facial animation has gained significant
attention, particularly in applications such as virtual reality, gaming, and
video conferencing. However, accurately modeling the intricate and subtle
dynamics of facial expressions remains a challenge. Most existing studies
approach the facial animation task as a single regression problem, which often
fail to capture the intrinsic inter-modal relationship between speech signals
and 3D facial animation and overlook their inherent consistency. Moreover, due
to the limited availability of 3D-audio-visual datasets, approaches learning
with small-size samples have poor generalizability that decreases the
performance. To address these issues, in this study, we propose a cross-modal
dual-learning framework, termed DualTalker, aiming at improving data usage
efficiency as well as relating cross-modal dependencies. The framework is
trained jointly with the primary task (audio-driven facial animation) and its
dual task (lip reading) and shares common audio/motion encoder components. Our
joint training framework facilitates more efficient data usage by leveraging
information from both tasks and explicitly capitalizing on the complementary
relationship between facial motion and audio to improve performance.
Furthermore, we introduce an auxiliary cross-modal consistency loss to mitigate
the potential over-smoothing underlying the cross-modal complementary
representations, enhancing the mapping of subtle facial expression dynamics.
Through extensive experiments and a perceptual user study conducted on the VOCA
and BIWI datasets, we demonstrate that our approach outperforms current
state-of-the-art methods both qualitatively and quantitatively. We have made
our code and video demonstrations available at
https://github.com/sabrina-su/iadf.git.
- Abstract(参考訳): 近年、特に仮想現実、ゲーム、ビデオ会議などのアプリケーションにおいて、音声駆動の3d顔アニメーションが注目されている。
しかし、表情の複雑で微妙なダイナミクスを正確にモデル化することは依然として困難である。
既存の研究のほとんどは、顔アニメーションタスクを単一の回帰問題として捉えており、音声信号と3d顔アニメーション間の内在的モーダル関係を捉えて、それらの内在的一貫性を見落としていないことが多い。
さらに、3d-audio-visualデータセットの可用性が限られているため、小規模サンプルで学習するアプローチは汎用性が低く、パフォーマンスが低下する。
本稿では,データ利用効率の向上とクロスモーダル依存性の関連を目的とした,クロスモーダルなデュアルラーニングフレームワークであるdualtalkerを提案する。
このフレームワークは、プライマリタスク(オーディオ駆動顔アニメーション)とそのデュアルタスク(リップ読み取り)と共同でトレーニングされ、共通のオーディオ/モーションエンコーダコンポーネントを共有する。
我々の共同トレーニングフレームワークは,両タスクの情報を活用し,顔の動きと音声の相補的関係を明確化し,パフォーマンスを向上させることによって,より効率的なデータ利用を促進する。
さらに,交叉交叉相補表現の基盤となる潜在的オーバースムーシングを軽減するために補助交叉一貫性損失を導入し,微妙な表情ダイナミクスのマッピングを強化した。
VOCAおよびBIWIデータセットを用いた広汎な実験と知覚的ユーザスタディにより,本手法が定性的かつ定量的に現在の最先端手法よりも優れていることを示す。
コードとビデオのデモをhttps://github.com/sabrina-su/iadf.gitで公開しました。
関連論文リスト
- KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend
3D Talking Faces [28.40393487247833]
音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用
これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。
本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
論文 参考訳(メタデータ) (2023-06-19T09:39:10Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。