論文の概要: LawDNet: Enhanced Audio-Driven Lip Synthesis via Local Affine Warping Deformation
- arxiv url: http://arxiv.org/abs/2409.09326v1
- Date: Sat, 14 Sep 2024 06:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:19:23.554209
- Title: LawDNet: Enhanced Audio-Driven Lip Synthesis via Local Affine Warping Deformation
- Title(参考訳): LawDNet: 局所アフィンウォーピング変形によるオーディオ駆動型脂質合成の強化
- Authors: Deng Junli, Luo Yihao, Yang Xueting, Li Siyou, Wang Wei, Guo Jinyang, Shi Ping,
- Abstract要約: LawDNetは、ローカルアフィンウォーピング変形機構を通じて唇合成を強化する新しいディープラーニングアーキテクチャである。
LawDNetはフレーム間連続性を改善するためのデュアルストリーム判別器を内蔵し、ポーズやシーンのバリエーションを扱うために顔正規化技術を採用している。
- 参考スコア(独自算出の注目度): 0.4537124110113416
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the domain of photorealistic avatar generation, the fidelity of audio-driven lip motion synthesis is essential for realistic virtual interactions. Existing methods face two key challenges: a lack of vivacity due to limited diversity in generated lip poses and noticeable anamorphose motions caused by poor temporal coherence. To address these issues, we propose LawDNet, a novel deep-learning architecture enhancing lip synthesis through a Local Affine Warping Deformation mechanism. This mechanism models the intricate lip movements in response to the audio input by controllable non-linear warping fields. These fields consist of local affine transformations focused on abstract keypoints within deep feature maps, offering a novel universal paradigm for feature warping in networks. Additionally, LawDNet incorporates a dual-stream discriminator for improved frame-to-frame continuity and employs face normalization techniques to handle pose and scene variations. Extensive evaluations demonstrate LawDNet's superior robustness and lip movement dynamism performance compared to previous methods. The advancements presented in this paper, including the methodologies, training data, source codes, and pre-trained models, will be made accessible to the research community.
- Abstract(参考訳): 光リアリスティックなアバター生成の分野では、オーディオ駆動型唇運動合成の忠実さは現実的な仮想相互作用に不可欠である。
既存の方法は2つの大きな課題に直面している: 生成した唇のポーズの多様性の制限による視力の欠如と、時間的コヒーレンスの不整合による顕著なアナモルファス運動である。
このような問題に対処するため,我々はLawDNetを提案する。LawDNetは,局所アフィンウォーピング変形機構による唇合成を改良した新しいディープラーニングアーキテクチャである。
このメカニズムは、制御可能な非線形整流場による音声入力に応じて、複雑な唇の動きをモデル化する。
これらの分野は、ディープ・フィーチャーマップ内の抽象キーポイントに焦点をあてた局所アフィン変換から成り、ネットワーク内のフィーチャー・ワープのための新しい普遍的パラダイムを提供する。
加えて、LawDNetはフレーム間連続性を改善するためのデュアルストリーム判別器を導入し、ポーズとシーンのバリエーションを扱うために顔正規化技術を採用している。
広範囲な評価は,従来の方法と比較して,LawDNetの優れた頑健性と唇運動ダイナミズム性能を示す。
本稿では, 方法論, トレーニングデータ, ソースコード, 事前学習モデルなど, 研究コミュニティが利用できるようにする。
関連論文リスト
- RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting [21.474938045227702]
本研究では,高忠実度音声ヘッド合成のための変形型放射場フレームワークであるTalkingGaussianを紹介する。
提案手法は, 従来の方法と比較して, 顔の忠実度と効率性を向上し, 高品質な唇同期音声ヘッドビデオを生成する。
論文 参考訳(メタデータ) (2024-04-23T17:55:07Z) - SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend
3D Talking Faces [28.40393487247833]
音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用
これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。
本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
論文 参考訳(メタデータ) (2023-06-19T09:39:10Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - A Neural Lip-Sync Framework for Synthesizing Photorealistic Virtual News
Anchors [8.13692293541489]
リップシンクは、音声信号から口の動きを生成するための有望な技術として登場した。
本稿では,高忠実度仮想ニュースアンカーの製作に特化して設計された新しいリップシンクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-20T12:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。