論文の概要: Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation
in the Wild
- arxiv url: http://arxiv.org/abs/2203.03984v1
- Date: Tue, 8 Mar 2022 10:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:47:48.744922
- Title: Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation
in the Wild
- Title(参考訳): 注意に基づく口唇音声・視覚合成による野生の話し顔生成
- Authors: Ganglai Wang, Peng Zhang, Lei Xie, Wei Huang and Yufei Zha
- Abstract要約: 本稿では,xxxによりモチベーションされたAttnWav2Lipモデルについて,空間アテンションモジュールとチャネルアテンションモジュールをリップ同期戦略に組み込むことにより提案する。
限られた知識に対して、これは話し顔生成の仕組みに注意機構を導入する最初の試みである。
- 参考スコア(独自算出の注目度): 17.471128300990244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face generation with great practical significance has attracted more
attention in recent audio-visual studies. How to achieve accurate lip
synchronization is a long-standing challenge to be further investigated.
Motivated by xxx, in this paper, an AttnWav2Lip model is proposed by
incorporating spatial attention module and channel attention module into
lip-syncing strategy. Rather than focusing on the unimportant regions of the
face image, the proposed AttnWav2Lip model is able to pay more attention on the
lip region reconstruction. To our limited knowledge, this is the first attempt
to introduce attention mechanism to the scheme of talking face generation. An
extensive experiments have been conducted to evaluate the effectiveness of the
proposed model. Compared to the baseline measured by LSE-D and LSE-C metrics, a
superior performance has been demonstrated on the benchmark lip synthesis
datasets, including LRW, LRS2 and LRS3.
- Abstract(参考訳): 近年の音声視覚研究において,顔生成の実践的意義が注目されている。
正確な口唇同期を実現するには,さらに検討すべき課題である。
本稿では,リップ同期戦略に空間注意モジュールとチャネル注意モジュールを組み込んだattnwav2lipモデルを提案する。
顔画像の重要でない領域に注目するのではなく、提案されたAttnWav2Lipモデルは唇領域再構成により多くの注意を払うことができる。
限られた知識に対して、これは話し顔生成の仕組みに注意機構を導入する最初の試みである。
提案モデルの有効性を評価するために, 広範囲な実験を行った。
LSE-DとLSE-Cの基準値と比較すると、LRW, LRS2, LRS3を含むベンチマークリップ合成データセットにおいて優れた性能を示した。
関連論文リスト
- Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention [98.52189797347354]
唇読解のための空間特徴抽出にマルチスケール処理を導入する。
セルフアテンションを活用して、シーケンスのすべてのステップで情報をマージします。
提案モデルは86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。
論文 参考訳(メタデータ) (2020-12-28T16:55:51Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。