論文の概要: Hierarchical Video Generation for Complex Data
- arxiv url: http://arxiv.org/abs/2106.02719v1
- Date: Fri, 4 Jun 2021 21:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:12:09.168012
- Title: Hierarchical Video Generation for Complex Data
- Title(参考訳): 複雑なデータに対する階層的ビデオ生成
- Authors: Lluis Castrejon, Nicolas Ballas, Aaron Courville
- Abstract要約: 粗大なアプローチに追従した映像生成のための階層モデルを提案する。
まず、低解像度の映像を生成し、グローバルなシーン構造を確立し、その後、階層の次のレベルによって精査する。
我々はKinetics-600とBDD100Kのアプローチを検証し、48フレームで256x256ビデオを生成することができる3レベルモデルをトレーニングした。
- 参考スコア(独自算出の注目度): 14.901308948331321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos can often be created by first outlining a global description of the
scene and then adding local details. Inspired by this we propose a hierarchical
model for video generation which follows a coarse to fine approach. First our
model generates a low resolution video, establishing the global scene
structure, that is then refined by subsequent levels in the hierarchy. We train
each level in our hierarchy sequentially on partial views of the videos. This
reduces the computational complexity of our generative model, which scales to
high-resolution videos beyond a few frames. We validate our approach on
Kinetics-600 and BDD100K, for which we train a three level model capable of
generating 256x256 videos with 48 frames.
- Abstract(参考訳): ビデオは、まずシーンのグローバルな説明を概説し、次にローカルな詳細を追加することで作成される。
そこで我々は,ビデオ生成のための階層モデルを提案する。
まず、我々のモデルは低解像度のビデオを生成し、グローバルなシーン構造を確立し、その後階層の次のレベルによって洗練します。
階層内の各レベルを、ビデオの部分的なビューに基づいて順次トレーニングします。
これにより、数フレームを超える高解像度ビデオにスケールする生成モデルの計算複雑性が軽減される。
我々はKinetics-600とBDD100Kのアプローチを検証し、48フレームで256x256ビデオを生成することができる3レベルモデルをトレーニングした。
関連論文リスト
- Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - Video ReCap: Recursive Captioning of Hour-Long Videos [42.878517455453824]
Video ReCapは、1秒から2時間までの動画入力を劇的に異なる長さで処理し、複数の階層レベルで動画キャプションを出力することができる。
ビデオの階層構造を,クリップレベルのキャプションからセグメントレベルの記述に至るまで,カリキュラム学習方式を用いて学習する。
我々のモデルは、様々な階層レベルのキャプションを柔軟に生成できると同時に、他の複雑なビデオ理解タスクにも有用である。
論文 参考訳(メタデータ) (2024-02-20T18:58:54Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。
我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。
また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文 参考訳(メタデータ) (2023-12-11T18:59:57Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation [157.07019458623242]
NUWA-XLは、eXtremely Long 世代のための新しい拡散アーキテクチャである。
当社のアプローチでは,動画を同じ粒度で並列に生成できる粗大な「微細化」プロセスを採用している。
実験の結果,グローバル・ローカル・コヒーレンスの両方で高品質な長編ビデオを生成するだけでなく,平均推定時間を7.55分から26秒に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:10:09Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - Cascaded Video Generation for Videos In-the-Wild [10.017846915566174]
粗大なアプローチに追従した映像生成のためのカスケードモデルを提案する。
まず、このモデルを用いて低解像度映像を生成し、グローバルなシーン構造を確立する。
ビデオの部分的なビューに基づいて各カスケードレベルを逐次訓練し、計算複雑性を低減させる。
論文 参考訳(メタデータ) (2022-06-01T19:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。