論文の概要: Talking Head from Speech Audio using a Pre-trained Image Generator
- arxiv url: http://arxiv.org/abs/2209.04252v1
- Date: Fri, 9 Sep 2022 11:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:54:05.532968
- Title: Talking Head from Speech Audio using a Pre-trained Image Generator
- Title(参考訳): 予め学習した画像生成器を用いた音声音声からの発話頭部
- Authors: Mohammed M. Alghamdi, He Wang, Andrew J. Bulpitt, David C. Hogg
- Abstract要約: 音声音声と1つの「同一性」画像から音声の高精細度映像を生成する手法を提案する。
我々は、各フレームをStyleGANの潜在空間の点としてモデル化し、ビデオが潜在空間の軌跡に対応するようにした。
我々は、音声発話から画像生成装置の潜時空間の変位へマッピングするために、繰り返しニューラルネットワークを訓練する。
- 参考スコア(独自算出の注目度): 5.659018934205065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel method for generating high-resolution videos of
talking-heads from speech audio and a single 'identity' image. Our method is
based on a convolutional neural network model that incorporates a pre-trained
StyleGAN generator. We model each frame as a point in the latent space of
StyleGAN so that a video corresponds to a trajectory through the latent space.
Training the network is in two stages. The first stage is to model trajectories
in the latent space conditioned on speech utterances. To do this, we use an
existing encoder to invert the generator, mapping from each video frame into
the latent space. We train a recurrent neural network to map from speech
utterances to displacements in the latent space of the image generator. These
displacements are relative to the back-projection into the latent space of an
identity image chosen from the individuals depicted in the training dataset. In
the second stage, we improve the visual quality of the generated videos by
tuning the image generator on a single image or a short video of any chosen
identity. We evaluate our model on standard measures (PSNR, SSIM, FID and LMD)
and show that it significantly outperforms recent state-of-the-art methods on
one of two commonly used datasets and gives comparable performance on the
other. Finally, we report on ablation experiments that validate the components
of the model. The code and videos from experiments can be found at
https://mohammedalghamdi.github.io/talking-heads-acm-mm
- Abstract(参考訳): 音声音声と1つの「同一性」画像から音声の高精細度映像を生成する手法を提案する。
本手法は,事前学習したStyleGANジェネレータを組み込んだ畳み込みニューラルネットワークモデルに基づく。
各フレームをスタイルガンの潜在空間の点としてモデル化し、ビデオが潜在空間内の軌道に対応するようにした。
ネットワークのトレーニングは2段階です。
第1段階は、音声発話を条件とした潜在空間における軌跡のモデル化である。
これを実現するために,既存のエンコーダを用いて生成元を反転させ,各ビデオフレームから潜在空間へのマッピングを行う。
我々は、音声発話から画像生成装置の潜時空間の変位へマッピングするために、繰り返しニューラルネットワークを訓練する。
これらの変位は、トレーニングデータセットで描かれた個人から選択されたアイデンティティイメージの潜在空間へのバックプロジェクションに相対する。
第2段階では、画像生成装置を単一の画像または選択したアイデンティティのショートビデオに調整することにより、生成した映像の視覚的品質を向上させる。
標準測度(PSNR, SSIM, FID, LMD)で評価し, 2つの一般的なデータセットのうちの1つで最近の最先端の手法を著しく上回り, 他方で同等の性能を示した。
最後に,モデルの構成要素を検証するアブレーション実験について報告する。
実験のコードとビデオはhttps://mohammedalghamdi.github.io/talking-heads-acm-mmにある。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models [24.401443462720135]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。
特に、私たちのスタイルには、頭部ポーズの生成が含まれており、それによってユーザの知覚が向上する。
高品質な映像データセットから再構成された3DMMパラメータをモデルに学習することで,3D音声データ不足に対処する。
論文 参考訳(メタデータ) (2023-09-30T17:01:18Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with
Diffusion Autoencoder [20.814063371439904]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers [34.4824364161812]
新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。
ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T21:08:23Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。