論文の概要: Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers
- arxiv url: http://arxiv.org/abs/2212.04970v1
- Date: Fri, 9 Dec 2022 16:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:36:26.034924
- Title: Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers
- Title(参考訳): コンテクスト爆発による変圧器のマスクリップ同期予測
- Authors: Yasheng Sun, Hang Zhou, Kaisiyuan Wang, Qianyi Wu, Zhibin Hong,
Jingtuo Liu, Errui Ding, Jingdong Wang, Ziwei Liu, Hideki Koike
- Abstract要約: 従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
- 参考スコア(独自算出の注目度): 91.00397473678088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous studies have explored generating accurately lip-synced talking faces
for arbitrary targets given audio conditions. However, most of them deform or
generate the whole facial area, leading to non-realistic results. In this work,
we delve into the formulation of altering only the mouth shapes of the target
person. This requires masking a large percentage of the original image and
seamlessly inpainting it with the aid of audio and reference frames. To this
end, we propose the Audio-Visual Context-Aware Transformer (AV-CAT) framework,
which produces accurate lip-sync with photo-realistic quality by predicting the
masked mouth shapes. Our key insight is to exploit desired contextual
information provided in audio and visual modalities thoroughly with delicately
designed Transformers. Specifically, we propose a convolution-Transformer
hybrid backbone and design an attention-based fusion strategy for filling the
masked parts. It uniformly attends to the textural information on the unmasked
regions and the reference frame. Then the semantic audio information is
involved in enhancing the self-attention computation. Additionally, a
refinement network with audio injection improves both image and lip-sync
quality. Extensive experiments validate that our model can generate
high-fidelity lip-synced results for arbitrary subjects.
- Abstract(参考訳): 従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
しかし、そのほとんどは顔領域全体を変形または生成し、非現実的な結果をもたらす。
本研究では,対象者の口形状のみを変更するという定式化について検討する。
これはオリジナルの画像の大部分をマスクし、オーディオと参照フレームの助けを借りてシームレスに塗り付ける必要がある。
この目的のために,マスクした口の形状を予測して,写真品質の正確なリップシンクを生成するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々の重要な洞察は、微妙に設計されたトランスフォーマーで、オーディオと視覚のモーダルで提供される望ましいコンテキスト情報を活用することである。
具体的には,畳み込みとトランスフォーマーのハイブリッドバックボーンを提案し,マスク部品を充填するための注意に基づく融合戦略を設計する。
マスクされていない領域と参照フレームのテクスチャ情報に均一に出席する。
そして、セマンティックオーディオ情報が自己注意計算の強化に関与する。
さらに、オーディオインジェクションを備えたリファインメントネットワークは、画像とリップシンクの両方の品質が向上する。
広範な実験により,本モデルが任意の被験者に対して高忠実度なリップ同期結果を生成することを検証した。
関連論文リスト
- SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing [19.245228801339007]
唇の動きとイメージテクスチャを分離するSegTalkerという新しいフレームワークを提案する。
我々はマスク誘導エンコーダを用いて画像の意味領域をスタイルコードに切り離す。
最終的に、以前に生成された音声セグメントとスタイルコードをマスク誘導型StyleGANに注入し、ビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-09-05T15:11:40Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:17:49Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。