論文の概要: Everybody's Talkin': Let Me Talk as You Want
- arxiv url: http://arxiv.org/abs/2001.05201v1
- Date: Wed, 15 Jan 2020 09:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 07:17:34.429070
- Title: Everybody's Talkin': Let Me Talk as You Want
- Title(参考訳): みんなが話す: 好きなように話させてください
- Authors: Linsen Song, Wayne Wu, Chen Qian, Ran He, Chen Change Loy
- Abstract要約: 本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
- 参考スコア(独自算出の注目度): 134.65914135774605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method to edit a target portrait footage by taking a sequence of
audio as input to synthesize a photo-realistic video. This method is unique
because it is highly dynamic. It does not assume a person-specific rendering
network yet capable of translating arbitrary source audio into arbitrary video
output. Instead of learning a highly heterogeneous and nonlinear mapping from
audio to the video directly, we first factorize each target video frame into
orthogonal parameter spaces, i.e., expression, geometry, and pose, via
monocular 3D face reconstruction. Next, a recurrent network is introduced to
translate source audio into expression parameters that are primarily related to
the audio content. The audio-translated expression parameters are then used to
synthesize a photo-realistic human subject in each video frame, with the
movement of the mouth regions precisely mapped to the source audio. The
geometry and pose parameters of the target human portrait are retained,
therefore preserving the context of the original video footage. Finally, we
introduce a novel video rendering network and a dynamic programming method to
construct a temporally coherent and photo-realistic video. Extensive
experiments demonstrate the superiority of our method over existing approaches.
Our method is end-to-end learnable and robust to voice variations in the source
audio.
- Abstract(参考訳): 本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
この方法は非常にダイナミックであるためユニークです。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
音声から映像への高度に不均一で非線形なマッピングを直接学習するのではなく、まず各対象の映像フレームを直交パラメータ空間、すなわち表現、幾何学、ポーズに分解する。
次に、ソースオーディオを主にオーディオコンテンツに関連する表現パラメータに変換するために、リカレントネットワークを導入する。
次に、音声変換された表現パラメータを用いて、各ビデオフレーム内の写実的な人間の被写体を合成し、口領域の動きをソースオーディオに正確にマッピングする。
対象の人間の肖像画の形状とポーズパラメータは保持され、オリジナル映像のコンテキストが保存される。
最後に,時間的コヒーレントかつフォトリアリスティックなビデオを構築するための新しいビデオレンダリングネットワークと動的プログラミング手法を提案する。
大規模な実験は,既存手法よりも本手法の方が優れていることを示す。
本手法はエンドツーエンドで学習可能であり,音源音声の変動に対して頑健である。
関連論文リスト
- ReliTalk: Relightable Talking Portrait Generation from a Single Video [62.47116237654984]
ReliTalkは、モノクロビデオから再生可能なオーディオ駆動型音声ポートレート生成のための新しいフレームワークである。
我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
論文 参考訳(メタデータ) (2023-09-05T17:59:42Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - VideoReTalking: Audio-based Lip Synchronization for Talking Head Video
Editing In the Wild [37.93856291026653]
VideoReTalkingは、現実世界のトーキングヘッドビデオの顔を入力音声で編集する新しいシステムである。
感情が違う場合でも、高品質でリップシンクの出力ビデオを生成する。
論文 参考訳(メタデータ) (2022-11-27T08:14:23Z) - Audio-driven Neural Gesture Reenactment with Video Motion Graphs [30.449816206864632]
本稿では,ターゲット音声と一致するジェスチャーで高品質な映像を再現する手法を提案する。
提案手法の鍵となる考え方は,クリップ間の有効な遷移を符号化した新しい動画モーショングラフを通じて,参照ビデオからクリップを分割,再組み立てすることである。
異なるクリップをシームレスに接続するために、2つのクリップの間に縫合されたフレームの周囲にビデオフレームを合成するポーズ対応ビデオブレンディングネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-23T14:02:57Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Facial Keypoint Sequence Generation from Audio [2.66512000865131]
本研究は,音声キーポイントデータセットを提案し,任意の長さの音声を出力する上で有効なキーポイントシーケンスを出力するモデルを学習する。
オーディオキーポイントデータセットを提案して、任意の長さのオーディオを出力するためのモデルを学ぶ最初の作品である。
論文 参考訳(メタデータ) (2020-11-02T16:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。