論文の概要: Cascaded Video Generation for Videos In-the-Wild
- arxiv url: http://arxiv.org/abs/2206.00735v1
- Date: Wed, 1 Jun 2022 19:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:54:49.987311
- Title: Cascaded Video Generation for Videos In-the-Wild
- Title(参考訳): 字幕内動画のカスケード映像生成
- Authors: Lluis Castrejon, Nicolas Ballas, Aaron Courville
- Abstract要約: 粗大なアプローチに追従した映像生成のためのカスケードモデルを提案する。
まず、このモデルを用いて低解像度映像を生成し、グローバルなシーン構造を確立する。
ビデオの部分的なビューに基づいて各カスケードレベルを逐次訓練し、計算複雑性を低減させる。
- 参考スコア(独自算出の注目度): 10.017846915566174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos can be created by first outlining a global view of the scene and then
adding local details. Inspired by this idea we propose a cascaded model for
video generation which follows a coarse to fine approach. First our model
generates a low resolution video, establishing the global scene structure,
which is then refined by subsequent cascade levels operating at larger
resolutions. We train each cascade level sequentially on partial views of the
videos, which reduces the computational complexity of our model and makes it
scalable to high-resolution videos with many frames. We empirically validate
our approach on UCF101 and Kinetics-600, for which our model is competitive
with the state-of-the-art. We further demonstrate the scaling capabilities of
our model and train a three-level model on the BDD100K dataset which generates
256x256 pixels videos with 48 frames.
- Abstract(参考訳): ビデオは、まずシーンのグローバルビューを概説し、次にローカルの詳細を追加することで作成できる。
このアイデアにインスパイアされた我々は、粗大なアプローチに従うビデオ生成のためのカスケードモデルを提案する。
まず,我々のモデルが低解像度ビデオを生成し,大域的なシーン構造を確立し,その後,さらに大きな解像度で動作するカスケードレベルによって洗練する。
各カスケードレベルをビデオの部分的なビューで順次トレーニングすることで、モデルの計算の複雑さを低減し、多数のフレームを持つ高解像度ビデオにスケーラブルにします。
我々は,本モデルが最先端技術と競合するutf101およびkinetics-600のアプローチを実証的に検証した。
さらに,モデルのスケーリング機能を実証し,48フレームの256x256ピクセルビデオを生成するbdd100kデータセット上で,3レベルモデルをトレーニングします。
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。
我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。
また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文 参考訳(メタデータ) (2023-12-11T18:59:57Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - Hierarchical Video Generation for Complex Data [14.901308948331321]
粗大なアプローチに追従した映像生成のための階層モデルを提案する。
まず、低解像度の映像を生成し、グローバルなシーン構造を確立し、その後、階層の次のレベルによって精査する。
我々はKinetics-600とBDD100Kのアプローチを検証し、48フレームで256x256ビデオを生成することができる3レベルモデルをトレーニングした。
論文 参考訳(メタデータ) (2021-06-04T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。