Fugu-MT 論文翻訳(概要): High-Fidelity and Freely Controllable Talking Head Video Generation

論文の概要: High-Fidelity and Freely Controllable Talking Head Video Generation

arxiv url: http://arxiv.org/abs/2304.10168v1
Date: Thu, 20 Apr 2023 09:02:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-21 14:00:37.406288
Title: High-Fidelity and Freely Controllable Talking Head Video Generation
Title（参考訳）: 高精細・自由制御型トーキングヘッドビデオ生成
Authors: Yue Gao, Yuan Zhou, Jinglu Wang, Xiao Li, Xiang Ming, Yan Lu
Abstract要約: 本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
参考スコア（独自算出の注目度）: 35.34547548004906
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Talking head generation is to generate video based on a given source identity and target motion. However, current methods face several challenges that limit the quality and controllability of the generated videos. First, the generated face often has unexpected deformation and severe distortions. Second, the driving image does not explicitly disentangle movement-relevant information, such as poses and expressions, which restricts the manipulation of different attributes during generation. Third, the generated videos tend to have flickering artifacts due to the inconsistency of the extracted landmarks between adjacent frames. In this paper, we propose a novel model that produces high-fidelity talking head videos with free control over head pose and expression. Our method leverages both self-supervised learned landmarks and 3D face model-based landmarks to model the motion. We also introduce a novel motion-aware multi-scale feature alignment module to effectively transfer the motion without face distortion. Furthermore, we enhance the smoothness of the synthesized talking head videos with a feature context adaptation and propagation module. We evaluate our model on challenging datasets and demonstrate its state-of-the-art performance. More information is available at https://yuegao.me/PECHead.
Abstract（参考訳）: トーキングヘッド生成は、与えられたソースidとターゲットモーションに基づいてビデオを生成することである。しかし、現在の手法では、生成されたビデオの品質と制御性を制限するいくつかの課題に直面している。まず、生成された顔はしばしば予期せぬ変形と激しい歪みがある。第2に、駆動画像はポーズや表情などの移動関連情報を明示的に区別せず、生成中の異なる属性の操作を制限する。第3に、生成されたビデオは、隣接するフレーム間で抽出されたランドマークの不整合のために、フリックなアーティファクトを持つ傾向がある。本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。本手法は,自己指導型学習ランドマークと3次元顔モデルに基づくランドマークを併用して動作をモデル化する。また,顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを提案する。さらに,合成音声ヘッドビデオのスムース性も向上し,特徴的コンテキスト適応と伝搬モジュールを備える。我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。詳細はhttps://yuegao.me/PECHead.comで確認できる。

関連論文リスト

M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。 M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-11T04:48:12Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文参考訳（メタデータ） (2024-12-01T08:54:30Z)
Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation [15.233839480474206]
トーキングヘッドビデオ生成は、音源画像から人物の身元と運転映像からの動作を保存したリアルなトーキングヘッドビデオを作成することを目的としている。この分野における有望な進歩にもかかわらず、正確なポーズときめ細かい顔の細部を同時に生成することは、依然として困難かつ重要な問題である。顔の動き条件と外観特徴の両方を効果的に洗練するために、動作と外観のコードブックを共同で学習し、マルチスケールのコードブック補償を実行することを提案する。
論文参考訳（メタデータ） (2024-12-01T07:54:07Z)
One-Shot Pose-Driving Face Animation Platform [7.422568903818486]
我々は、Face LocatorとMotion Frame機構を統合することで、既存のImage2Videoモデルを洗練する。我々は、人間の顔ビデオデータセットを用いてモデルを最適化し、高品質な音声ヘッドビデオを作成する能力を大幅に向上させる。そこで我々は,Gradioフレームワークを用いたデモプラットフォームを開発し,プロセスの合理化を図り,ユーザがカスタマイズした音声ヘッドビデオを簡単に作成できるようにする。
論文参考訳（メタデータ） (2024-07-12T03:09:07Z)
MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文参考訳（メタデータ） (2023-12-08T16:31:04Z)
FAAC: Facial Animation Generation with Anchor Frame and Conditional Control for Superior Fidelity and Editability [14.896554342627551]
顔のアイデンティティと編集能力を両立させる顔アニメーション生成手法を提案する。このアプローチは、オリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処するためのアンカーフレームの概念を取り入れている。提案手法の有効性をDreamBoothモデルとLoRAモデルで検証した。
論文参考訳（メタデータ） (2023-12-06T02:55:35Z)
Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文参考訳（メタデータ） (2023-12-03T14:17:11Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
Learning Landmarks Motion from Speech for Speaker-Agnostic 3D Talking Heads Generation [9.242997749920498]
本稿では,生音声入力から3次元音声頭を生成する新しい手法を提案する。 3D音声ヘッド生成におけるランドマークの使用は、一貫性、信頼性、手動アノテーションの必要性の回避など、さまざまなメリットを提供する。
論文参考訳（メタデータ） (2023-06-02T10:04:57Z)
Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文参考訳（メタデータ） (2023-01-06T14:16:54Z)
StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-08T12:06:12Z)
PIRenderer: Controllable Portrait Image Generation via Semantic Neural Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文参考訳（メタデータ） (2021-09-17T07:24:16Z)
Talking-head Generation with Rhythmic Head Motion [46.6897675583319]
本稿では,ハイブリッド埋め込みモジュールと非線形合成モジュールを備えた3次元認識型生成ネットワークを提案する。提案手法は, 自然な頭部運動を伴う制御可能, フォトリアリスティック, 時間的コヒーレントなトーキングヘッドビデオを実現する。
論文参考訳（メタデータ） (2020-07-16T18:13:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。