論文の概要: SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend
3D Talking Faces
- arxiv url: http://arxiv.org/abs/2306.10799v1
- Date: Mon, 19 Jun 2023 09:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 18:26:48.495238
- Title: SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend
3D Talking Faces
- Title(参考訳): selftalk: 自己教師付き可換学習図による3次元対話顔の理解
- Authors: Ziqiao Peng, Yihao Luo, Yue Shi, Hao Xu, Xiangyu Zhu, Hongyan Liu, Jun
He, Zhaoxin Fan
- Abstract要約: 音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用
これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。
本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
- 参考スコア(独自算出の注目度): 17.11663629150568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D face animation technique, extending its applications to
various multimedia fields. Previous research has generated promising realistic
lip movements and facial expressions from audio signals. However, traditional
regression models solely driven by data face several essential problems, such
as difficulties in accessing precise labels and domain gaps between different
modalities, leading to unsatisfactory results lacking precision and coherence.
To enhance the visual accuracy of generated lip movement while reducing the
dependence on labeled data, we propose a novel framework SelfTalk, by involving
self-supervision in a cross-modals network system to learn 3D talking faces.
The framework constructs a network system consisting of three modules: facial
animator, speech recognizer, and lip-reading interpreter. The core of SelfTalk
is a commutative training diagram that facilitates compatible features exchange
among audio, text, and lip shape, enabling our models to learn the intricate
connection between these factors. The proposed framework leverages the
knowledge learned from the lip-reading interpreter to generate more plausible
lip shapes. Extensive experiments and user studies demonstrate that our
proposed approach achieves state-of-the-art performance both qualitatively and
quantitatively. We recommend watching the supplementary video.
- Abstract(参考訳): 音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用
これまでの研究は、音声信号から現実的な唇の動きと表情を生み出してきた。
しかし、データのみによって駆動される従来の回帰モデルは、正確なラベルへのアクセスの困難や異なるモダリティ間のドメインギャップといったいくつかの重要な問題に直面し、精度と一貫性に欠ける不満足な結果をもたらす。
ラベル付きデータへの依存を低減しつつ、生成した唇の動きの視覚的精度を高めるために、クロスモーダルネットワークシステムに自己監督を組み込んだ新たなフレームワークであるSelfTalkを提案する。
このフレームワークは、顔アニメーター、音声認識、唇読取インタプリタの3つのモジュールからなるネットワークシステムを構築する。
selftalkのコアは、オーディオ、テキスト、唇形状の互換性のある機能を交換し、モデルがこれらの要素間の複雑な接続を学習できるようにする、コンタクティブなトレーニングダイアグラムです。
提案フレームワークは, 唇読解者から学んだ知識を利用して, より可塑性な唇形状を生成する。
広汎な実験とユーザスタディにより,提案手法が質的かつ定量的に,最先端の性能を達成することを示す。
補足ビデオを見ることをお勧めします。
関連論文リスト
- KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。