論文の概要: Towards Smooth Video Composition
- arxiv url: http://arxiv.org/abs/2212.07413v1
- Date: Wed, 14 Dec 2022 18:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 15:20:55.780410
- Title: Towards Smooth Video Composition
- Title(参考訳): スムースビデオコンポジションに向けて
- Authors: Qihang Zhang, Ceyuan Yang, Yujun Shen, Yinghao Xu, and Bolei Zhou
- Abstract要約: ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
- 参考スコア(独自算出の注目度): 59.134911550142455
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video generation requires synthesizing consistent and persistent frames with
dynamic content over time. This work investigates modeling the temporal
relations for composing video with arbitrary length, from a few frames to even
infinite, using generative adversarial networks (GANs). First, towards
composing adjacent frames, we show that the alias-free operation for single
image generation, together with adequately pre-learned knowledge, brings a
smooth frame transition without compromising the per-frame quality. Second, by
incorporating the temporal shift module (TSM), originally designed for video
understanding, into the discriminator, we manage to advance the generator in
synthesizing more consistent dynamics. Third, we develop a novel B-Spline based
motion representation to ensure temporal smoothness to achieve infinite-length
video generation. It can go beyond the frame number used in training. A
low-rank temporal modulation is also proposed to alleviate repeating contents
for long video generation. We evaluate our approach on various datasets and
show substantial improvements over video generation baselines. Code and models
will be publicly available at https://genforce.github.io/StyleSV.
- Abstract(参考訳): ビデオ生成には、時間とともに動的なコンテンツで一貫した永続的なフレームを合成する必要がある。
本研究は,gans(generative adversarial network)を用いて,数フレームから無限フレームまでの任意の長さの映像を合成するための時間関係のモデル化について検討する。
まず,一つの画像生成のためのエイリアスフリーな操作と適切な事前学習知識が,フレームごとの品質を損なうことなくスムーズなフレーム遷移をもたらすことを示す。
第2に、ビデオ理解のために設計された時間シフトモジュール(TSM)を判別器に組み込むことで、より一貫したダイナミクスを合成してジェネレータを前進させる。
第3に,時間的スムーズ性を確保するために,B-Splineに基づく新しい動き表現を開発した。
トレーニングで使用されるフレーム番号を超えることができる。
長時間映像生成のための繰り返しコンテンツの軽減のために,低ランク時間変調も提案されている。
我々は,様々なデータセットに対するアプローチを評価し,ビデオ生成ベースラインよりも大幅に改善した。
コードとモデルはhttps://genforce.github.io/StyleSVで公開されている。
関連論文リスト
- FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Vid-ODE: Continuous-Time Video Generation with Neural Ordinary
Differential Equation [42.85126020237214]
本稿では,ニューラルODE(Vid-ODE)と画素レベルの画像処理技術を組み合わせた連続時間ビデオ生成を提案する。
Vid-ODEは、現実世界のビデオを使った連続的なビデオ生成を成功させた最初の作品である。
論文 参考訳(メタデータ) (2020-10-16T06:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。