論文の概要: A Neural Lip-Sync Framework for Synthesizing Photorealistic Virtual News
Anchors
- arxiv url: http://arxiv.org/abs/2002.08700v2
- Date: Wed, 5 May 2021 10:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 08:11:44.998781
- Title: A Neural Lip-Sync Framework for Synthesizing Photorealistic Virtual News
Anchors
- Title(参考訳): フォトリアリスティックな仮想ニュースアンカーを合成するニューラルネットワークリップシンクフレームワーク
- Authors: Ruobing Zheng, Zhou Zhu, Bo Song, Changjiang Ji
- Abstract要約: リップシンクは、音声信号から口の動きを生成するための有望な技術として登場した。
本稿では,高忠実度仮想ニュースアンカーの製作に特化して設計された新しいリップシンクフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.13692293541489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip sync has emerged as a promising technique for generating mouth movements
from audio signals. However, synthesizing a high-resolution and photorealistic
virtual news anchor is still challenging. Lack of natural appearance, visual
consistency, and processing efficiency are the main problems with existing
methods. This paper presents a novel lip-sync framework specially designed for
producing high-fidelity virtual news anchors. A pair of Temporal Convolutional
Networks are used to learn the cross-modal sequential mapping from audio
signals to mouth movements, followed by a neural rendering network that
translates the synthetic facial map into a high-resolution and photorealistic
appearance. This fully trainable framework provides end-to-end processing that
outperforms traditional graphics-based methods in many low-delay applications.
Experiments also show the framework has advantages over modern neural-based
methods in both visual appearance and efficiency.
- Abstract(参考訳): 音声信号から口の動きを生成する技術としてリップシンクが登場した。
しかし、高解像度でフォトリアリスティックなバーチャルニュースアンカーの合成はまだ難しい。
自然な外観、視覚的整合性、処理効率の欠如が、既存の手法の主な問題である。
本稿では,高忠実度仮想ニュースアンカーのための新しいリップシンクフレームワークを提案する。
一対のテンポラル畳み込みネットワークを用いて、音声信号から口の動きへのクロスモーダルな逐次マッピングを学習し、その後、合成顔地図を高解像度でフォトリアリスティックな外観に変換するニューラルネットワークが続く。
この完全にトレーニング可能なフレームワークは、多くの低遅延アプリケーションで従来のグラフィックベースのメソッドを上回るエンドツーエンドの処理を提供する。
実験はまた、このフレームワークが視覚的外観と効率の両方において、現代のニューラルベース手法よりも優れていることを示している。
関連論文リスト
- LawDNet: Enhanced Audio-Driven Lip Synthesis via Local Affine Warping Deformation [0.4537124110113416]
LawDNetは、ローカルアフィンウォーピング変形機構を通じて唇合成を強化する新しいディープラーニングアーキテクチャである。
LawDNetはフレーム間連続性を改善するためのデュアルストリーム判別器を内蔵し、ポーズやシーンのバリエーションを扱うために顔正規化技術を採用している。
論文 参考訳(メタデータ) (2024-09-14T06:04:21Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance [13.050998759819933]
OpFlowTalkerは、直接画像予測ではなく、音声入力から予測される光フロー変化を利用する新しい手法である。
画像の遷移を円滑にし、変更をセマンティックコンテンツと整合させる。
また,全顔と唇の動きを調節する光フロー同期モジュールを開発した。
論文 参考訳(メタデータ) (2024-05-23T15:42:34Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Fast Training of Neural Lumigraph Representations using Meta Learning [109.92233234681319]
我々は、リアルタイムにレンダリングできる高品質な表現を素早く学習することを目的として、新しいニューラルレンダリングアプローチを開発した。
われわれのアプローチであるMetaNLR++は、ニューラル形状表現と2次元CNNに基づく画像特徴抽出、集約、再投影のユニークな組み合わせを用いてこれを実現する。
そこで本研究では,MetaNLR++が類似あるいはより優れたフォトリアリスティックなノベルビュー合成を実現し,競合する手法が要求される時間のほんの少しの時間で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-28T18:55:50Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。