Fugu-MT 論文翻訳(概要): Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation in the Wild

論文の概要: Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation in the Wild

arxiv url: http://arxiv.org/abs/2203.03984v1
Date: Tue, 8 Mar 2022 10:18:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-09 15:47:48.744922
Title: Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation in the Wild
Title（参考訳）: 注意に基づく口唇音声・視覚合成による野生の話し顔生成
Authors: Ganglai Wang, Peng Zhang, Lei Xie, Wei Huang and Yufei Zha
Abstract要約: 本稿では,xxxによりモチベーションされたAttnWav2Lipモデルについて,空間アテンションモジュールとチャネルアテンションモジュールをリップ同期戦略に組み込むことにより提案する。限られた知識に対して、これは話し顔生成の仕組みに注意機構を導入する最初の試みである。
参考スコア（独自算出の注目度）: 17.471128300990244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Talking face generation with great practical significance has attracted more attention in recent audio-visual studies. How to achieve accurate lip synchronization is a long-standing challenge to be further investigated. Motivated by xxx, in this paper, an AttnWav2Lip model is proposed by incorporating spatial attention module and channel attention module into lip-syncing strategy. Rather than focusing on the unimportant regions of the face image, the proposed AttnWav2Lip model is able to pay more attention on the lip region reconstruction. To our limited knowledge, this is the first attempt to introduce attention mechanism to the scheme of talking face generation. An extensive experiments have been conducted to evaluate the effectiveness of the proposed model. Compared to the baseline measured by LSE-D and LSE-C metrics, a superior performance has been demonstrated on the benchmark lip synthesis datasets, including LRW, LRS2 and LRS3.
Abstract（参考訳）: 近年の音声視覚研究において,顔生成の実践的意義が注目されている。正確な口唇同期を実現するには,さらに検討すべき課題である。本稿では,リップ同期戦略に空間注意モジュールとチャネル注意モジュールを組み込んだattnwav2lipモデルを提案する。顔画像の重要でない領域に注目するのではなく、提案されたAttnWav2Lipモデルは唇領域再構成により多くの注意を払うことができる。限られた知識に対して、これは話し顔生成の仕組みに注意機構を導入する最初の試みである。提案モデルの有効性を評価するために, 広範囲な実験を行った。 LSE-DとLSE-Cの基準値と比較すると、LRW, LRS2, LRS3を含むベンチマークリップ合成データセットにおいて優れた性能を示した。

関連論文リスト

LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition [12.336693356113308]
モデルロバスト性を改善するための新しいフレームワークであるLipGenを提案する。注意機構を兼ね備えたビセメ分類を補助タスクとして導入する。本手法は,野生(LRW)データセットにおける唇読解における現在の最先端技術と比較して,優れた性能を示す。
論文参考訳（メタデータ） (2025-01-08T00:52:19Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文参考訳（メタデータ） (2024-06-26T12:09:59Z)
Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。 3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文参考訳（メタデータ） (2024-05-07T13:55:50Z)
Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文参考訳（メタデータ） (2021-10-14T17:59:57Z)
Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention [98.52189797347354]
唇読解のための空間特徴抽出にマルチスケール処理を導入する。セルフアテンションを活用して、シーケンスのすべてのステップで情報をマージします。提案モデルは86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。
論文参考訳（メタデータ） (2020-12-28T16:55:51Z)
Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文参考訳（メタデータ） (2020-03-13T18:47:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。