論文の概要: GenDeF: Learning Generative Deformation Field for Video Generation
- arxiv url: http://arxiv.org/abs/2312.04561v1
- Date: Thu, 7 Dec 2023 18:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:22:19.335242
- Title: GenDeF: Learning Generative Deformation Field for Video Generation
- Title(参考訳): GenDeF:ビデオ生成のための生成変形場を学習する
- Authors: Wen Wang, Kecheng Zheng, Qiuyu Wang, Hao Chen, Zifan Shi, Ceyuan Yang,
Yujun Shen, Chunhua Shen
- Abstract要約: 我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
- 参考スコア(独自算出の注目度): 89.49567113452396
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We offer a new perspective on approaching the task of video generation.
Instead of directly synthesizing a sequence of frames, we propose to render a
video by warping one static image with a generative deformation field (GenDeF).
Such a pipeline enjoys three appealing advantages. First, we can sufficiently
reuse a well-trained image generator to synthesize the static image (also
called canonical image), alleviating the difficulty in producing a video and
thereby resulting in better visual quality. Second, we can easily convert a
deformation field to optical flows, making it possible to apply explicit
structural regularizations for motion modeling, leading to temporally
consistent results. Third, the disentanglement between content and motion
allows users to process a synthesized video through processing its
corresponding static image without any tuning, facilitating many applications
like video editing, keypoint tracking, and video segmentation. Both qualitative
and quantitative results on three common video generation benchmarks
demonstrate the superiority of our GenDeF method.
- Abstract(参考訳): 我々は,映像生成の課題に迫る新たな視点を提供する。
フレーム列を直接合成するのではなく,1つの静的画像を生成変形場(GenDeF)でワープすることで映像をレンダリングする。
このようなパイプラインは3つの魅力的な利点を享受する。
まず,十分に訓練された画像生成装置を十分に再利用して静止画像(正準画像とも呼ばれる)を合成し,映像制作の難しさを軽減し,映像品質の向上を図る。
第2に,変形場を光流に容易に変換でき,運動モデリングに明示的な構造正規化を適用できるため,時間的に一貫した結果が得られる。
第3に、コンテンツと動画の絡み合いによって、ユーザーは対応する静的イメージをチューニングすることなく処理することで、合成されたビデオを処理でき、ビデオ編集、キーポイント追跡、ビデオセグメンテーションといった多くのアプリケーションを容易にする。
3つの一般的なビデオ生成ベンチマークの質的および定量的結果は、我々のGenDeF法の優位性を示している。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture [11.587428534308945]
EasyAnimateは、高性能な結果を得るためにトランスフォーマーアーキテクチャのパワーを利用する、ビデオ生成の先進的な方法である。
動作モジュールブロックを組み込んで,3次元映像生成の複雑さに対応するために,当初2次元画像合成用に設計されたDiTフレームワークを拡張した。
我々は、データ前処理、VAEトレーニング、DiTモデルトレーニング、エンドツーエンドのビデオ推論といった側面を含む、DiTに基づくビデオ制作のための総合的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-05-29T11:11:07Z) - CoDeF: Content Deformation Fields for Temporally Consistent Video
Processing [89.49585127724941]
CoDeFは、標準コンテンツフィールドと時間変形フィールドからなる新しいタイプのビデオ表現である。
実験により,CoDeFは,映像から映像への変換とキーポイント検出をキーポイントトラッキングに,トレーニングなしで持ち上げることができることを示した。
論文 参考訳(メタデータ) (2023-08-15T17:59:56Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Encode-in-Style: Latent-based Video Encoding using StyleGAN2 [0.7614628596146599]
本稿では,データ効率のよい高品質な映像再生を実現するために,エンドツーエンドの顔画像符号化手法を提案する。
このアプローチは、StyleGAN2イメージインバージョンとマルチステージの非線形遅延空間編集に基づいて、入力ビデオにほぼ匹敵するビデオを生成する。
論文 参考訳(メタデータ) (2022-03-28T05:44:19Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。