Fugu-MT 論文翻訳(概要): Cascaded Video Generation for Videos In-the-Wild

論文の概要: Cascaded Video Generation for Videos In-the-Wild

arxiv url: http://arxiv.org/abs/2206.00735v1
Date: Wed, 1 Jun 2022 19:50:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-03 13:54:49.987311
Title: Cascaded Video Generation for Videos In-the-Wild
Title（参考訳）: 字幕内動画のカスケード映像生成
Authors: Lluis Castrejon, Nicolas Ballas, Aaron Courville
Abstract要約: 粗大なアプローチに追従した映像生成のためのカスケードモデルを提案する。まず、このモデルを用いて低解像度映像を生成し、グローバルなシーン構造を確立する。ビデオの部分的なビューに基づいて各カスケードレベルを逐次訓練し、計算複雑性を低減させる。
参考スコア（独自算出の注目度）: 10.017846915566174
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Videos can be created by first outlining a global view of the scene and then adding local details. Inspired by this idea we propose a cascaded model for video generation which follows a coarse to fine approach. First our model generates a low resolution video, establishing the global scene structure, which is then refined by subsequent cascade levels operating at larger resolutions. We train each cascade level sequentially on partial views of the videos, which reduces the computational complexity of our model and makes it scalable to high-resolution videos with many frames. We empirically validate our approach on UCF101 and Kinetics-600, for which our model is competitive with the state-of-the-art. We further demonstrate the scaling capabilities of our model and train a three-level model on the BDD100K dataset which generates 256x256 pixels videos with 48 frames.
Abstract（参考訳）: ビデオは、まずシーンのグローバルビューを概説し、次にローカルの詳細を追加することで作成できる。このアイデアにインスパイアされた我々は、粗大なアプローチに従うビデオ生成のためのカスケードモデルを提案する。まず,我々のモデルが低解像度ビデオを生成し,大域的なシーン構造を確立し,その後,さらに大きな解像度で動作するカスケードレベルによって洗練する。各カスケードレベルをビデオの部分的なビューで順次トレーニングすることで、モデルの計算の複雑さを低減し、多数のフレームを持つ高解像度ビデオにスケーラブルにします。我々は,本モデルが最先端技術と競合するutf101およびkinetics-600のアプローチを実証的に検証した。さらに,モデルのスケーリング機能を実証し,48フレームの256x256ピクセルビデオを生成するbdd100kデータセット上で,3レベルモデルをトレーニングします。

関連論文リスト

CascadeV: An Implementation of Wurstchen Architecture for Video Generation [4.086317089863318]
本稿では,最先端の2K解像度ビデオを生成することができるLDM(Latent diffusion model)を提案する。実験により, 高い圧縮比を達成でき, 高品質ビデオ生成に伴う計算課題を大幅に削減できることが示された。我々のモデルは既存のT2Vモデルとカスケードすることができ、理論的には、微調整なしで4$times$の解像度やフレームを毎秒増加させることができる。
論文参考訳（メタデータ） (2025-01-28T01:14:24Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文参考訳（メタデータ） (2024-06-12T01:12:53Z)
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文参考訳（メタデータ） (2024-06-03T00:31:13Z)
Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文参考訳（メタデータ） (2023-12-11T18:59:57Z)
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文参考訳（メタデータ） (2023-11-25T22:28:38Z)
Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文参考訳（メタデータ） (2023-05-06T09:07:01Z)
MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文参考訳（メタデータ） (2022-11-20T16:40:31Z)
Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文参考訳（メタデータ） (2022-10-05T14:41:38Z)
Hierarchical Video Generation for Complex Data [14.901308948331321]
粗大なアプローチに追従した映像生成のための階層モデルを提案する。まず、低解像度の映像を生成し、グローバルなシーン構造を確立し、その後、階層の次のレベルによって精査する。我々はKinetics-600とBDD100Kのアプローチを検証し、48フレームで256x256ビデオを生成することができる3レベルモデルをトレーニングした。
論文参考訳（メタデータ） (2021-06-04T21:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。