論文の概要: GenDeF: Learning Generative Deformation Field for Video Generation
- arxiv url: http://arxiv.org/abs/2312.04561v1
- Date: Thu, 7 Dec 2023 18:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:22:19.335242
- Title: GenDeF: Learning Generative Deformation Field for Video Generation
- Title(参考訳): GenDeF:ビデオ生成のための生成変形場を学習する
- Authors: Wen Wang, Kecheng Zheng, Qiuyu Wang, Hao Chen, Zifan Shi, Ceyuan Yang,
Yujun Shen, Chunhua Shen
- Abstract要約: 我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
- 参考スコア(独自算出の注目度): 89.49567113452396
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We offer a new perspective on approaching the task of video generation.
Instead of directly synthesizing a sequence of frames, we propose to render a
video by warping one static image with a generative deformation field (GenDeF).
Such a pipeline enjoys three appealing advantages. First, we can sufficiently
reuse a well-trained image generator to synthesize the static image (also
called canonical image), alleviating the difficulty in producing a video and
thereby resulting in better visual quality. Second, we can easily convert a
deformation field to optical flows, making it possible to apply explicit
structural regularizations for motion modeling, leading to temporally
consistent results. Third, the disentanglement between content and motion
allows users to process a synthesized video through processing its
corresponding static image without any tuning, facilitating many applications
like video editing, keypoint tracking, and video segmentation. Both qualitative
and quantitative results on three common video generation benchmarks
demonstrate the superiority of our GenDeF method.
- Abstract(参考訳): 我々は,映像生成の課題に迫る新たな視点を提供する。
フレーム列を直接合成するのではなく,1つの静的画像を生成変形場(GenDeF)でワープすることで映像をレンダリングする。
このようなパイプラインは3つの魅力的な利点を享受する。
まず,十分に訓練された画像生成装置を十分に再利用して静止画像(正準画像とも呼ばれる)を合成し,映像制作の難しさを軽減し,映像品質の向上を図る。
第2に,変形場を光流に容易に変換でき,運動モデリングに明示的な構造正規化を適用できるため,時間的に一貫した結果が得られる。
第3に、コンテンツと動画の絡み合いによって、ユーザーは対応する静的イメージをチューニングすることなく処理することで、合成されたビデオを処理でき、ビデオ編集、キーポイント追跡、ビデオセグメンテーションといった多くのアプリケーションを容易にする。
3つの一般的なビデオ生成ベンチマークの質的および定量的結果は、我々のGenDeF法の優位性を示している。
関連論文リスト
- CoDeF: Content Deformation Fields for Temporally Consistent Video
Processing [89.49585127724941]
CoDeFは、標準コンテンツフィールドと時間変形フィールドからなる新しいタイプのビデオ表現である。
実験により,CoDeFは,映像から映像への変換とキーポイント検出をキーポイントトラッキングに,トレーニングなしで持ち上げることができることを示した。
論文 参考訳(メタデータ) (2023-08-15T17:59:56Z) - InstructVid2Vid: Controllable Video Editing with Natural Language
Instructions [106.6740407795944]
人間の言語命令で動画を編集するエンドツーエンド拡散方式,すなわち $textbfInstructVid2Vid$ を提案する。
提案手法では,自然言語命令に基づく入力ビデオの編集を,例ごとの微調整や逆変換を行なわずに行うことができる。
実験によると、InstructVid2Vidは高品質で時間的に整合したビデオを生成し、編集、背景の変更、スタイル転送など様々な編集を行うことができる。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Encode-in-Style: Latent-based Video Encoding using StyleGAN2 [0.7614628596146599]
本稿では,データ効率のよい高品質な映像再生を実現するために,エンドツーエンドの顔画像符号化手法を提案する。
このアプローチは、StyleGAN2イメージインバージョンとマルチステージの非線形遅延空間編集に基づいて、入力ビデオにほぼ匹敵するビデオを生成する。
論文 参考訳(メタデータ) (2022-03-28T05:44:19Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。