論文の概要: Adaptive Super Resolution For One-Shot Talking-Head Generation
- arxiv url: http://arxiv.org/abs/2403.15944v1
- Date: Sat, 23 Mar 2024 22:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:22:33.319148
- Title: Adaptive Super Resolution For One-Shot Talking-Head Generation
- Title(参考訳): ワンショットトーキングヘッドジェネレーションのための適応型スーパーレゾリューション
- Authors: Luchuan Song, Pinxin Liu, Guojun Yin, Chenliang Xu,
- Abstract要約: トーキングヘッド生成は、同一または異なるアイデンティティビデオの駆動下で、1つのソースポートレート画像でトーキングヘッドビデオを合成することを学ぶ。
いくつかの手法は、追加の超解像モジュールを導入して、合成ビデオの品質を改善しようとする。
追加の事前学習モジュールを使わずに高精細映像を合成する適応型高品質トーキングヘッドビデオ生成法を提案する。
- 参考スコア(独自算出の注目度): 34.345520667882084
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The one-shot talking-head generation learns to synthesize a talking-head video with one source portrait image under the driving of same or different identity video. Usually these methods require plane-based pixel transformations via Jacobin matrices or facial image warps for novel poses generation. The constraints of using a single image source and pixel displacements often compromise the clarity of the synthesized images. Some methods try to improve the quality of synthesized videos by introducing additional super-resolution modules, but this will undoubtedly increase computational consumption and destroy the original data distribution. In this work, we propose an adaptive high-quality talking-head video generation method, which synthesizes high-resolution video without additional pre-trained modules. Specifically, inspired by existing super-resolution methods, we down-sample the one-shot source image, and then adaptively reconstruct high-frequency details via an encoder-decoder module, resulting in enhanced video clarity. Our method consistently improves the quality of generated videos through a straightforward yet effective strategy, substantiated by quantitative and qualitative evaluations. The code and demo video are available on: \url{https://github.com/Songluchuan/AdaSR-TalkingHead/}.
- Abstract(参考訳): ワンショットのトーキングヘッド生成は、同一または異なるアイデンティティビデオの駆動下で、1つのソースポートレートイメージでトーキングヘッドビデオを合成することを学ぶ。
通常これらの方法は、新しいポーズ生成のために、ヤコビ行列や顔画像ワープを介して平面ベースのピクセル変換を必要とする。
単一の画像ソースと画素変位を使用するという制約は、しばしば合成画像の明瞭さを損なう。
一部の方法は、追加の超解像モジュールを導入することで、合成ビデオの品質向上を図っているが、これは明らかに計算消費を増大させ、元のデータ分布を破壊するだろう。
そこで本研究では,追加の事前学習モジュールを使わずに高精細度映像を合成する,適応的な高品質なトーキングヘッドビデオ生成手法を提案する。
具体的には、既存の超解像法にインスパイアされ、ワンショットソースイメージをダウンサンプルし、エンコーダデコーダモジュールを介して高周波の詳細を適応的に再構成し、その結果、ビデオの明瞭度が向上する。
提案手法は,定量的かつ定性的な評価を基礎として,直接的かつ効果的な戦略によって生成ビデオの品質を継続的に向上する。
コードとデモビデオは以下の通りである。
関連論文リスト
- Grid Diffusion Models for Text-to-Video Generation [2.531998650341267]
既存のビデオ生成手法の多くは、時間次元を考慮した3D U-Netアーキテクチャまたは自己回帰生成を使用する。
アーキテクチャにおける時間次元を伴わないテキスト・ビデオ生成と大規模なテキスト・ビデオ・ペア・データセットのための,単純だが効果的な新しいグリッド拡散法を提案する。
提案手法は,定量評価と定性評価の両方において既存手法より優れている。
論文 参考訳(メタデータ) (2024-03-30T03:50:43Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Matryoshka Diffusion Models [38.26966802461602]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T17:20:01Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。