論文の概要: A Neural Lip-Sync Framework for Synthesizing Photorealistic Virtual News
Anchors
- arxiv url: http://arxiv.org/abs/2002.08700v2
- Date: Wed, 5 May 2021 10:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 08:11:44.998781
- Title: A Neural Lip-Sync Framework for Synthesizing Photorealistic Virtual News
Anchors
- Title(参考訳): フォトリアリスティックな仮想ニュースアンカーを合成するニューラルネットワークリップシンクフレームワーク
- Authors: Ruobing Zheng, Zhou Zhu, Bo Song, Changjiang Ji
- Abstract要約: リップシンクは、音声信号から口の動きを生成するための有望な技術として登場した。
本稿では,高忠実度仮想ニュースアンカーの製作に特化して設計された新しいリップシンクフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.13692293541489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip sync has emerged as a promising technique for generating mouth movements
from audio signals. However, synthesizing a high-resolution and photorealistic
virtual news anchor is still challenging. Lack of natural appearance, visual
consistency, and processing efficiency are the main problems with existing
methods. This paper presents a novel lip-sync framework specially designed for
producing high-fidelity virtual news anchors. A pair of Temporal Convolutional
Networks are used to learn the cross-modal sequential mapping from audio
signals to mouth movements, followed by a neural rendering network that
translates the synthetic facial map into a high-resolution and photorealistic
appearance. This fully trainable framework provides end-to-end processing that
outperforms traditional graphics-based methods in many low-delay applications.
Experiments also show the framework has advantages over modern neural-based
methods in both visual appearance and efficiency.
- Abstract(参考訳): 音声信号から口の動きを生成する技術としてリップシンクが登場した。
しかし、高解像度でフォトリアリスティックなバーチャルニュースアンカーの合成はまだ難しい。
自然な外観、視覚的整合性、処理効率の欠如が、既存の手法の主な問題である。
本稿では,高忠実度仮想ニュースアンカーのための新しいリップシンクフレームワークを提案する。
一対のテンポラル畳み込みネットワークを用いて、音声信号から口の動きへのクロスモーダルな逐次マッピングを学習し、その後、合成顔地図を高解像度でフォトリアリスティックな外観に変換するニューラルネットワークが続く。
この完全にトレーニング可能なフレームワークは、多くの低遅延アプリケーションで従来のグラフィックベースのメソッドを上回るエンドツーエンドの処理を提供する。
実験はまた、このフレームワークが視覚的外観と効率の両方において、現代のニューラルベース手法よりも優れていることを示している。
関連論文リスト
- GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Human Performance Modeling and Rendering via Neural Animated Mesh [40.25449482006199]
従来のメッシュをニューラルレンダリングの新たなクラスでブリッジします。
本稿では,映像から人間の視点をレンダリングする新しい手法を提案する。
我々は、ARヘッドセットにバーチャルヒューマンパフォーマンスを挿入して、さまざまなプラットフォーム上でのアプローチを実証する。
論文 参考訳(メタデータ) (2022-09-18T03:58:00Z) - Synthesizing Photorealistic Virtual Humans Through Cross-modal
Disentanglement [0.8959668207214765]
口唇の動きを正確に表現できる高品質な仮想顔を合成するためのエンドツーエンドフレームワークを提案する。
提案手法はリアルタイムに動作し,現在の最先端技術と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2022-09-03T03:56:49Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Fast Training of Neural Lumigraph Representations using Meta Learning [109.92233234681319]
我々は、リアルタイムにレンダリングできる高品質な表現を素早く学習することを目的として、新しいニューラルレンダリングアプローチを開発した。
われわれのアプローチであるMetaNLR++は、ニューラル形状表現と2次元CNNに基づく画像特徴抽出、集約、再投影のユニークな組み合わせを用いてこれを実現する。
そこで本研究では,MetaNLR++が類似あるいはより優れたフォトリアリスティックなノベルビュー合成を実現し,競合する手法が要求される時間のほんの少しの時間で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-28T18:55:50Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。