論文の概要: Latent Video Transformer
- arxiv url: http://arxiv.org/abs/2006.10704v1
- Date: Thu, 18 Jun 2020 17:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:42:52.940612
- Title: Latent Video Transformer
- Title(参考訳): 潜伏ビデオトランスフォーマ
- Authors: Ruslan Rakhimov, Denis Volkhonskiy, Alexey Artemov, Denis Zorin,
Evgeny Burnaev
- Abstract要約: いくつかのビデオ生成モデルは、並列トレーニングのために最大512の処理ユニットを必要とする。
本研究では,潜在空間の力学をモデル化することでこの問題に対処する。
本稿では,BAIR Robot Pushing Kinetics-600データセットの性能について述べる。
- 参考スコア(独自算出の注目度): 30.0340468756089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The video generation task can be formulated as a prediction of future video
frames given some past frames. Recent generative models for videos face the
problem of high computational requirements. Some models require up to 512
Tensor Processing Units for parallel training. In this work, we address this
problem via modeling the dynamics in a latent space. After the transformation
of frames into the latent space, our model predicts latent representation for
the next frames in an autoregressive manner. We demonstrate the performance of
our approach on BAIR Robot Pushing and Kinetics-600 datasets. The approach
tends to reduce requirements to 8 Graphical Processing Units for training the
models while maintaining comparable generation quality.
- Abstract(参考訳): ビデオ生成タスクは、過去のフレームを与えられた将来のビデオフレームの予測として定式化することができる。
最近のビデオ生成モデルは高い計算要求の問題に直面している。
いくつかのモデルは、並列トレーニングのために最大512個のテンソルプロセッシングユニットを必要とする。
本研究では,潜在空間の力学をモデル化することでこの問題に対処する。
フレームが潜在空間に変換された後、我々のモデルは次のフレームに対する潜在表現を自己回帰的に予測する。
我々は,BAIR Robot Pushing と Kinetics-600 のデータセットにアプローチの有効性を示す。
このアプローチは、モデルトレーニングのための8つのグラフィカルな処理ユニットへの要求を削減し、同等の世代品質を維持する傾向がある。
関連論文リスト
- ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。
我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。
また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文 参考訳(メタデータ) (2023-12-11T18:59:57Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。
私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。
提案手法は,1~12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-05-19T20:58:05Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - Transformation-based Adversarial Video Prediction on Large-Scale Data [19.281817081571408]
本稿では,映像から抽出したフレーム列を考慮に入れた上で,映像予測の課題に焦点をあてる。
まず, 判別器分解の系統的研究を行い, その状態を改善する。
そこで我々は,従来の隠れ状態が予測された動きにしたがって変化する新しい再帰ユニットを提案する。
論文 参考訳(メタデータ) (2020-03-09T10:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。