論文の概要: Learning Online Scale Transformation for Talking Head Video Generation
- arxiv url: http://arxiv.org/abs/2407.09965v1
- Date: Sat, 13 Jul 2024 18:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:08:02.893763
- Title: Learning Online Scale Transformation for Talking Head Video Generation
- Title(参考訳): 対話型ビデオ生成のためのオンライン・スケール・トランスフォーメーションの学習
- Authors: Fa-Ting Hong, Dan Xu,
- Abstract要約: ワンショット音声ヘッドビデオ生成は、ソースイメージと駆動ビデオを使用して、ソース人の顔の動きが駆動ビデオの動作を模倣する合成ビデオを作成する。
既存の方法では、ソース画像と最適に整合するドライビングビデオ内のフレームを見つけようとするが、不正確なアライメントは、最適以下の結果をもたらす。
本稿では,原画像のスケールに合わせて駆動画像のスケールを自動的に調整できるスケール変換モジュールを提案する。
- 参考スコア(独自算出の注目度): 14.102629579320572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot talking head video generation uses a source image and driving video to create a synthetic video where the source person's facial movements imitate those of the driving video. However, differences in scale between the source and driving images remain a challenge for face reenactment. Existing methods attempt to locate a frame in the driving video that aligns best with the source image, but imprecise alignment can result in suboptimal outcomes. To this end, we introduce a scale transformation module that can automatically adjust the scale of the driving image to fit that of the source image, by using the information of scale difference maintained in the detected keypoints of the source image and the driving frame. Furthermore, to keep perceiving the scale information of faces during the generation process, we incorporate the scale information learned from the scale transformation module into each layer of the generation process to produce a final result with an accurate scale. Our method can perform accurate motion transfer between the two images without any anchor frame, achieved through the contributions of the proposed online scale transformation facial reenactment network. Extensive experiments have demonstrated that our proposed method adjusts the scale of the driving face automatically according to the source face, and generates high-quality faces with an accurate scale in the cross-identity facial reenactment.
- Abstract(参考訳): ワンショット音声ヘッドビデオ生成は、ソースイメージと駆動ビデオを使用して、ソース人の顔の動きが駆動ビデオの動作を模倣する合成ビデオを作成する。
しかし、音源と駆動画像のスケールの違いは、顔再現の課題である。
既存の方法では、ソース画像と最適に整合するドライビングビデオ内のフレームを見つけようとするが、不正確なアライメントは、最適以下の結果をもたらす。
この目的のために、ソース画像と駆動フレームの検出キーポイントに保持されているスケール差の情報を用いて、ソース画像のスケールを自動調整してソース画像のスケールに適合させることができるスケール変換モジュールを導入する。
さらに, 生成過程において顔のスケール情報を認識し続けるために, スケール変換モジュールから得られたスケール情報を生成過程の各層に組み込んで, 正確なスケールで最終的な結果を生成する。
提案手法は,提案したオンラインスケール変換顔再現ネットワークのコントリビューションにより,アンカーフレームを使わずに2つの画像間の正確な動き伝達を行うことができる。
大規模な実験により,提案手法は原面に応じて自動で駆動面のスケールを調整し,顔のクロスアイデンティティの再現において高精度なスケールで高品質な顔を生成することを示した。
関連論文リスト
- Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance, Head-pose, and Facial Expression Features [17.531847357428454]
顔再現の課題は、頭部の動きと表情を駆動ビデオからソース画像の外観に転送することである。
既存の手法の多くはCNNベースであり、ソース画像から現在の駆動フレームへの光の流れを推定する。
本稿では,ソースコードのセットラテント表現を演算するためのトランスフォーマーベースのエンコーダを提案する。
論文 参考訳(メタデータ) (2024-04-15T12:37:26Z) - Continuous Piecewise-Affine Based Motion Model for Image Animation [45.55812811136834]
画像アニメーションは、動画の駆動によって静的なイメージを生き返らせることを目的としている。
最近の教師なし手法では、キーポイントに基づくアフィンおよび薄板のスプライン変換を用いて、駆動フレーム内の動きをソース画像に転送する。
本研究では,高表現率微分空間における原画像から駆動フレームへの動きをモデル化する。
論文 参考訳(メタデータ) (2024-01-17T11:40:05Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Mesh Guided One-shot Face Reenactment using Graph Convolutional Networks [31.083072922977568]
本稿では,再構成した3Dメッシュを用いて顔合成に必要な光の流れを学習するワンショット顔再現法を提案する。
非対称なオートエンコーダである顔の動きを学習する動きネットを提案する。
提案手法は, 質的, 定量的な比較において, 高品質な結果を生成し, 最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-08-18T07:41:40Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。