論文の概要: Towards Smooth Video Composition
- arxiv url: http://arxiv.org/abs/2212.07413v1
- Date: Wed, 14 Dec 2022 18:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 15:20:55.780410
- Title: Towards Smooth Video Composition
- Title(参考訳): スムースビデオコンポジションに向けて
- Authors: Qihang Zhang, Ceyuan Yang, Yujun Shen, Yinghao Xu, and Bolei Zhou
- Abstract要約: ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
- 参考スコア(独自算出の注目度): 59.134911550142455
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video generation requires synthesizing consistent and persistent frames with
dynamic content over time. This work investigates modeling the temporal
relations for composing video with arbitrary length, from a few frames to even
infinite, using generative adversarial networks (GANs). First, towards
composing adjacent frames, we show that the alias-free operation for single
image generation, together with adequately pre-learned knowledge, brings a
smooth frame transition without compromising the per-frame quality. Second, by
incorporating the temporal shift module (TSM), originally designed for video
understanding, into the discriminator, we manage to advance the generator in
synthesizing more consistent dynamics. Third, we develop a novel B-Spline based
motion representation to ensure temporal smoothness to achieve infinite-length
video generation. It can go beyond the frame number used in training. A
low-rank temporal modulation is also proposed to alleviate repeating contents
for long video generation. We evaluate our approach on various datasets and
show substantial improvements over video generation baselines. Code and models
will be publicly available at https://genforce.github.io/StyleSV.
- Abstract(参考訳): ビデオ生成には、時間とともに動的なコンテンツで一貫した永続的なフレームを合成する必要がある。
本研究は,gans(generative adversarial network)を用いて,数フレームから無限フレームまでの任意の長さの映像を合成するための時間関係のモデル化について検討する。
まず,一つの画像生成のためのエイリアスフリーな操作と適切な事前学習知識が,フレームごとの品質を損なうことなくスムーズなフレーム遷移をもたらすことを示す。
第2に、ビデオ理解のために設計された時間シフトモジュール(TSM)を判別器に組み込むことで、より一貫したダイナミクスを合成してジェネレータを前進させる。
第3に,時間的スムーズ性を確保するために,B-Splineに基づく新しい動き表現を開発した。
トレーニングで使用されるフレーム番号を超えることができる。
長時間映像生成のための繰り返しコンテンツの軽減のために,低ランク時間変調も提案されている。
我々は,様々なデータセットに対するアプローチを評価し,ビデオ生成ベースラインよりも大幅に改善した。
コードとモデルはhttps://genforce.github.io/StyleSVで公開されている。
関連論文リスト
- ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - LoopAnimate: Loopable Salient Object Animation [19.761865029125524]
LoopAnimateは、一貫した開始フレームと終了フレームでビデオを生成する新しい方法である。
忠実度や時間的整合性,主観評価結果など,両指標の最先端性を実現している。
論文 参考訳(メタデータ) (2024-04-14T07:36:18Z) - Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。