論文の概要: One Style is All you Need to Generate a Video
- arxiv url: http://arxiv.org/abs/2310.17835v1
- Date: Fri, 27 Oct 2023 01:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:09:42.551523
- Title: One Style is All you Need to Generate a Video
- Title(参考訳): 動画生成に必要なのは1つのスタイル
- Authors: Sandeep Manandhar and Auguste Genovesio
- Abstract要約: 学習された正弦波基底の集合に基づく新しい時間発生器を提案する。
本手法は,画像の内容に依存しない様々な動作の動的表現を学習し,異なるアクター間で伝達することができる。
- 参考スコア(独自算出の注目度): 0.9558392439655012
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a style-based conditional video generative model.
We introduce a novel temporal generator based on a set of learned sinusoidal
bases. Our method learns dynamic representations of various actions that are
independent of image content and can be transferred between different actors.
Beyond the significant enhancement of video quality compared to prevalent
methods, we demonstrate that the disentangled dynamic and content permit their
independent manipulation, as well as temporal GAN-inversion to retrieve and
transfer a video motion from one content or identity to another without further
preprocessing such as landmark points.
- Abstract(参考訳): 本稿では,スタイルに基づく条件付きビデオ生成モデルを提案する。
学習された正弦波基底の集合に基づく新しい時間発生器を提案する。
本手法は,画像内容に依存しない様々な動作の動的表現を学習し,異なるアクター間で伝達する。
ビデオ品質の顕著な向上に加えて,アンタングル化された動的・コンテンツの独立な操作が可能であること,また,時間的GAN変換により,ランドマークポイントなどの事前処理を行なわずに,あるコンテンツやアイデンティティからビデオモーションを検索・転送できることを示す。
関連論文リスト
- SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。
本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。
我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-09-05T06:27:32Z) - Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - MotionVideoGAN: A Novel Video Generator Based on the Motion Space
Learned from Image Pairs [16.964371778504297]
我々は、事前訓練された画像ペア生成器によって学習された動き空間に基づいて、動画を合成する新しいビデオジェネレータであるMotionVideoGANを紹介する。
モーションコードは、編集された画像が同じ内容を共有するため、モーション空間内の画像を編集するのに役立ちます。
提案手法は,未条件のビデオ生成評価に使用される最も複雑なビデオデータセットであるUCF101に対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-06T05:52:13Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。