Fugu-MT 論文翻訳(概要): Towards Smooth Video Composition

論文の概要: Towards Smooth Video Composition

arxiv url: http://arxiv.org/abs/2212.07413v1
Date: Wed, 14 Dec 2022 18:54:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-15 15:20:55.780410
Title: Towards Smooth Video Composition
Title（参考訳）: スムースビデオコンポジションに向けて
Authors: Qihang Zhang, Ceyuan Yang, Yujun Shen, Yinghao Xu, and Bolei Zhou
Abstract要約: ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
参考スコア（独自算出の注目度）: 59.134911550142455
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Video generation requires synthesizing consistent and persistent frames with dynamic content over time. This work investigates modeling the temporal relations for composing video with arbitrary length, from a few frames to even infinite, using generative adversarial networks (GANs). First, towards composing adjacent frames, we show that the alias-free operation for single image generation, together with adequately pre-learned knowledge, brings a smooth frame transition without compromising the per-frame quality. Second, by incorporating the temporal shift module (TSM), originally designed for video understanding, into the discriminator, we manage to advance the generator in synthesizing more consistent dynamics. Third, we develop a novel B-Spline based motion representation to ensure temporal smoothness to achieve infinite-length video generation. It can go beyond the frame number used in training. A low-rank temporal modulation is also proposed to alleviate repeating contents for long video generation. We evaluate our approach on various datasets and show substantial improvements over video generation baselines. Code and models will be publicly available at https://genforce.github.io/StyleSV.
Abstract（参考訳）: ビデオ生成には、時間とともに動的なコンテンツで一貫した永続的なフレームを合成する必要がある。本研究は,gans(generative adversarial network)を用いて,数フレームから無限フレームまでの任意の長さの映像を合成するための時間関係のモデル化について検討する。まず,一つの画像生成のためのエイリアスフリーな操作と適切な事前学習知識が,フレームごとの品質を損なうことなくスムーズなフレーム遷移をもたらすことを示す。第2に、ビデオ理解のために設計された時間シフトモジュール(TSM)を判別器に組み込むことで、より一貫したダイナミクスを合成してジェネレータを前進させる。第3に,時間的スムーズ性を確保するために,B-Splineに基づく新しい動き表現を開発した。トレーニングで使用されるフレーム番号を超えることができる。長時間映像生成のための繰り返しコンテンツの軽減のために,低ランク時間変調も提案されている。我々は,様々なデータセットに対するアプローチを評価し,ビデオ生成ベースラインよりも大幅に改善した。コードとモデルはhttps://genforce.github.io/StyleSVで公開されている。

関連論文リスト

LumosFlow: Motion-Guided Long Video Generation [31.63126037070182]
エンターテイメントやシミュレーションなどの分野で広く利用されていることから、長いビデオ生成が注目を集めている。我々は階層的な長いビデオ生成パイプラインを再考し、モーションガイダンスを明示的に導入するフレームワークであるLumosFlowを紹介した。従来のビデオフレームと比較して、15倍の精度で、隣接するフレーム間の合理的かつ連続的な動きを保証します。
論文参考訳（メタデータ） (2025-06-03T06:25:00Z)
Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。 FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文参考訳（メタデータ） (2024-12-16T13:19:41Z)
ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-16T15:37:22Z)
LoopAnimate: Loopable Salient Object Animation [19.761865029125524]
LoopAnimateは、一貫した開始フレームと終了フレームでビデオを生成する新しい方法である。忠実度や時間的整合性,主観評価結果など,両指標の最先端性を実現している。
論文参考訳（メタデータ） (2024-04-14T07:36:18Z)
Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。 Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。 Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文参考訳（メタデータ） (2024-03-21T17:57:31Z)
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文参考訳（メタデータ） (2023-09-25T19:42:16Z)
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文参考訳（メタデータ） (2023-09-07T08:12:58Z)
ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。 NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文参考訳（メタデータ） (2023-05-22T14:48:53Z)
Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文参考訳（メタデータ） (2021-04-06T17:24:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。