論文の概要: VideoComposer: Compositional Video Synthesis with Motion Controllability
- arxiv url: http://arxiv.org/abs/2306.02018v1
- Date: Sat, 3 Jun 2023 06:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:45:26.932233
- Title: VideoComposer: Compositional Video Synthesis with Motion Controllability
- Title(参考訳): videocomposer: 動作制御性を有する合成ビデオ合成
- Authors: Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang,
Yingya Zhang, Yujun Shen, Deli Zhao, Jingren Zhou
- Abstract要約: VideoComposerを使えば、ユーザーはテキストの条件や空間的条件、さらに重要な時間的条件でビデオを柔軟に組み立てることができる。
圧縮ビデオからの運動ベクトルを明示的な制御信号として導入し、時間的ダイナミクスに関するガイダンスを提供する。
さらに、逐次入力の空間的・時間的関係を効果的に組み込むために、統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発した。
- 参考スコア(独自算出の注目度): 52.4714732331632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pursuit of controllability as a higher standard of visual content
creation has yielded remarkable progress in customizable image synthesis.
However, achieving controllable video synthesis remains challenging due to the
large variation of temporal dynamics and the requirement of cross-frame
temporal consistency. Based on the paradigm of compositional generation, this
work presents VideoComposer that allows users to flexibly compose a video with
textual conditions, spatial conditions, and more importantly temporal
conditions. Specifically, considering the characteristic of video data, we
introduce the motion vector from compressed videos as an explicit control
signal to provide guidance regarding temporal dynamics. In addition, we develop
a Spatio-Temporal Condition encoder (STC-encoder) that serves as a unified
interface to effectively incorporate the spatial and temporal relations of
sequential inputs, with which the model could make better use of temporal
conditions and hence achieve higher inter-frame consistency. Extensive
experimental results suggest that VideoComposer is able to control the spatial
and temporal patterns simultaneously within a synthesized video in various
forms, such as text description, sketch sequence, reference video, or even
simply hand-crafted motions. The code and models will be publicly available at
https://videocomposer.github.io.
- Abstract(参考訳): ビジュアルコンテンツ作成の高水準としての制御可能性の追求は、カスタマイズ可能な画像合成の著しい進歩をもたらした。
しかし,時間力学のばらつきやフレーム間の時間的一貫性が要求されるため,制御可能な映像合成を実現することは依然として困難である。
コンポジション生成のパラダイムに基づいて、この研究は、ユーザがテキスト条件、空間条件、さらに重要な時間条件でビデオを柔軟に構成できるVideoComposerを提示する。
具体的には,映像データの特徴を考慮し,圧縮映像からの動きベクトルを明示的な制御信号として導入し,時間ダイナミクスに関するガイダンスを提供する。
さらに、逐次入力の空間的および時間的関係を効果的に組み込むための統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発し、時間的条件をよりよく利用し、フレーム間の一貫性を向上させる。
大規模な実験結果から,VideoComposerはテキスト記述,スケッチシーケンス,参照ビデオ,あるいは手作り動作など,合成ビデオ内の空間的パターンと時間的パターンを同時に制御できることが示唆された。
コードとモデルはhttps://videocomposer.github.ioで公開されている。
関連論文リスト
- FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [47.88160253507823]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)、TAR(Temporal Affinity Refiner)、TFB(Temporal Feature Booster)をクロスアテンションの開始、中、末に組み込んでいる。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - MoStGAN-V: Video Generation with Temporal Motion Styles [28.082294960744726]
以前の作品は、自己回帰的な方法で、あるいは連続的な信号として時間に関して、任意の長さのビデオを生成しようと試みていた。
スタイルベースジェネレータの1つの時間に依存しない潜在ベクトルは、様々な時間的変動をモデル化するには不十分である。
多様な動きパターンをモデル化するために、時間依存の動作スタイルを導入する。
論文 参考訳(メタデータ) (2023-04-05T22:47:12Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Vid-ODE: Continuous-Time Video Generation with Neural Ordinary
Differential Equation [42.85126020237214]
本稿では,ニューラルODE(Vid-ODE)と画素レベルの画像処理技術を組み合わせた連続時間ビデオ生成を提案する。
Vid-ODEは、現実世界のビデオを使った連続的なビデオ生成を成功させた最初の作品である。
論文 参考訳(メタデータ) (2020-10-16T06:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。