論文の概要: Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation
in the Wild
- arxiv url: http://arxiv.org/abs/2203.03984v1
- Date: Tue, 8 Mar 2022 10:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:47:48.744922
- Title: Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation
in the Wild
- Title(参考訳): 注意に基づく口唇音声・視覚合成による野生の話し顔生成
- Authors: Ganglai Wang, Peng Zhang, Lei Xie, Wei Huang and Yufei Zha
- Abstract要約: 本稿では,xxxによりモチベーションされたAttnWav2Lipモデルについて,空間アテンションモジュールとチャネルアテンションモジュールをリップ同期戦略に組み込むことにより提案する。
限られた知識に対して、これは話し顔生成の仕組みに注意機構を導入する最初の試みである。
- 参考スコア(独自算出の注目度): 17.471128300990244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face generation with great practical significance has attracted more
attention in recent audio-visual studies. How to achieve accurate lip
synchronization is a long-standing challenge to be further investigated.
Motivated by xxx, in this paper, an AttnWav2Lip model is proposed by
incorporating spatial attention module and channel attention module into
lip-syncing strategy. Rather than focusing on the unimportant regions of the
face image, the proposed AttnWav2Lip model is able to pay more attention on the
lip region reconstruction. To our limited knowledge, this is the first attempt
to introduce attention mechanism to the scheme of talking face generation. An
extensive experiments have been conducted to evaluate the effectiveness of the
proposed model. Compared to the baseline measured by LSE-D and LSE-C metrics, a
superior performance has been demonstrated on the benchmark lip synthesis
datasets, including LRW, LRS2 and LRS3.
- Abstract(参考訳): 近年の音声視覚研究において,顔生成の実践的意義が注目されている。
正確な口唇同期を実現するには,さらに検討すべき課題である。
本稿では,リップ同期戦略に空間注意モジュールとチャネル注意モジュールを組み込んだattnwav2lipモデルを提案する。
顔画像の重要でない領域に注目するのではなく、提案されたAttnWav2Lipモデルは唇領域再構成により多くの注意を払うことができる。
限られた知識に対して、これは話し顔生成の仕組みに注意機構を導入する最初の試みである。
提案モデルの有効性を評価するために, 広範囲な実験を行った。
LSE-DとLSE-Cの基準値と比較すると、LRW, LRS2, LRS3を含むベンチマークリップ合成データセットにおいて優れた性能を示した。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention [98.52189797347354]
唇読解のための空間特徴抽出にマルチスケール処理を導入する。
セルフアテンションを活用して、シーケンスのすべてのステップで情報をマージします。
提案モデルは86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。
論文 参考訳(メタデータ) (2020-12-28T16:55:51Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。