論文の概要: One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing
- arxiv url: http://arxiv.org/abs/2011.15126v3
- Date: Fri, 2 Apr 2021 23:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:42:06.854061
- Title: One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing
- Title(参考訳): ビデオ会議のためのワンショット・フリービューニューラルトーキングヘッド合成
- Authors: Ting-Chun Wang, Arun Mallya, Ming-Yu Liu
- Abstract要約: ニューラルトークヘッドビデオ合成モデルを提案し,そのビデオ会議への応用を実証する。
本モデルでは,対象者の外見を含む音源画像と,出力中の動きを指示する駆動映像を用いて,対話ヘッド映像の合成を学習する。
- 参考スコア(独自算出の注目度): 38.69833890578639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a neural talking-head video synthesis model and demonstrate its
application to video conferencing. Our model learns to synthesize a
talking-head video using a source image containing the target person's
appearance and a driving video that dictates the motion in the output. Our
motion is encoded based on a novel keypoint representation, where the
identity-specific and motion-related information is decomposed unsupervisedly.
Extensive experimental validation shows that our model outperforms competing
methods on benchmark datasets. Moreover, our compact keypoint representation
enables a video conferencing system that achieves the same visual quality as
the commercial H.264 standard while only using one-tenth of the bandwidth.
Besides, we show our keypoint representation allows the user to rotate the head
during synthesis, which is useful for simulating face-to-face video
conferencing experiences.
- Abstract(参考訳): ニューラルトークヘッドビデオ合成モデルを提案し,そのビデオ会議への応用を実証する。
本モデルでは,対象者の外見を含む音源画像と,出力中の動きを指示する駆動映像を用いて,対話映像の合成を学習する。
私たちの動きは、アイデンティティと動きに関する情報が教師なしに分解される、新しいキーポイント表現に基づいてエンコードされます。
我々のモデルはベンチマークデータセット上で競合する手法よりも優れていることを示す。
また、このコンパクトキーポイント表現により、商用h.264標準と同じ視覚品質を、帯域幅の10分の1のみを用いて実現するビデオ会議システムを実現する。
さらに,このキーポイント表現により,ユーザが合成中に頭部を回転させることができることを示し,対面ビデオ会議体験のシミュレーションに有用である。
関連論文リスト
- SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input [6.275971782566314]
本研究では,SpatialDreamerと呼ばれるビデオ拡散モデルを用いて,自己監督型ステレオ合成ビデオパラダイムを提案する。
ステレオビデオデータ不足に対処するため,Depth ベースのビデオ生成モジュール DVG を提案する。
また,RefinerNetと,効率的で専用のトレーニングを容易にするための自己教師型合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T15:12:59Z) - LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details [14.22392871407274]
本稿では,写真リアリスティックな音声ヘッドビデオの合成に有効なポストプロセッシング手法を提案する。
具体的には,基礎モデルとして事前訓練されたWav2Lipモデルを使用し,その堅牢なオーディオ-リップアライメント機能を活用している。
以上の結果から,本手法は,最先端の映像品質とドメイン外リップ同期性能を実現することが示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:32:02Z) - One-Shot Pose-Driving Face Animation Platform [7.422568903818486]
我々は、Face LocatorとMotion Frame機構を統合することで、既存のImage2Videoモデルを洗練する。
我々は、人間の顔ビデオデータセットを用いてモデルを最適化し、高品質な音声ヘッドビデオを作成する能力を大幅に向上させる。
そこで我々は,Gradioフレームワークを用いたデモプラットフォームを開発し,プロセスの合理化を図り,ユーザがカスタマイズした音声ヘッドビデオを簡単に作成できるようにする。
論文 参考訳(メタデータ) (2024-07-12T03:09:07Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。