論文の概要: Transformation-based Adversarial Video Prediction on Large-Scale Data
- arxiv url: http://arxiv.org/abs/2003.04035v3
- Date: Wed, 17 Nov 2021 17:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:15:58.880150
- Title: Transformation-based Adversarial Video Prediction on Large-Scale Data
- Title(参考訳): 大規模データの変換に基づく逆動画予測
- Authors: Pauline Luc, Aidan Clark, Sander Dieleman, Diego de Las Casas, Yotam
Doron, Albin Cassirer, Karen Simonyan
- Abstract要約: 本稿では,映像から抽出したフレーム列を考慮に入れた上で,映像予測の課題に焦点をあてる。
まず, 判別器分解の系統的研究を行い, その状態を改善する。
そこで我々は,従来の隠れ状態が予測された動きにしたがって変化する新しい再帰ユニットを提案する。
- 参考スコア(独自算出の注目度): 19.281817081571408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in adversarial generative modeling have led to models
capable of producing video samples of high quality, even on large and complex
datasets of real-world video. In this work, we focus on the task of video
prediction, where given a sequence of frames extracted from a video, the goal
is to generate a plausible future sequence. We first improve the state of the
art by performing a systematic empirical study of discriminator decompositions
and proposing an architecture that yields faster convergence and higher
performance than previous approaches. We then analyze recurrent units in the
generator, and propose a novel recurrent unit which transforms its past hidden
state according to predicted motion-like features, and refines it to handle
dis-occlusions, scene changes and other complex behavior. We show that this
recurrent unit consistently outperforms previous designs. Our final model leads
to a leap in the state-of-the-art performance, obtaining a test set Frechet
Video Distance of 25.7, down from 69.2, on the large-scale Kinetics-600
dataset.
- Abstract(参考訳): 敵対的生成モデリングの最近の進歩は、現実世界のビデオの大規模で複雑なデータセットであっても、高品質のビデオサンプルを作成できるモデルを生み出している。
本研究は,映像から抽出されたフレームのシーケンスが与えられた場合,将来可能性の高いシーケンスを生成することを目的とした,映像予測の課題に焦点を当てる。
まず,分類器分解の系統的実証研究を行い,従来の手法よりも高速に収束し,高い性能を実現するアーキテクチャを提案する。
次に, ジェネレータ内の繰り返しユニットを解析し, 予測された動作的特徴に応じて過去の隠れ状態を変換し, 排除, シーン変化, その他の複雑な動作を扱うように改良する新しい再帰ユニットを提案する。
この繰り返しユニットは、常に以前の設計より優れていることを示す。
我々の最終モデルは最先端のパフォーマンスを飛躍させ、大規模なKinetics-600データセット上でFrechet Video Distanceの25.7を69.2からダウンさせるテストセットを得る。
関連論文リスト
- Pre-training for Action Recognition with Automatically Generated Fractal Datasets [23.686476742398973]
本稿では,短い合成ビデオクリップの大規模データセットを自動生成する手法を提案する。
生成されたビデオクリップは、複雑なマルチスケール構造を生成するフラクタルの自然能力に起因した顕著な多様性によって特徴づけられる。
通常のKineeticsの事前トレーニングと比較すると、報告結果が近くなり、下流のデータセットよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T16:51:11Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Diffusion Probabilistic Modeling for Video Generation [17.48026395867434]
拡散確率モデルは、知覚メトリクス上のGANと競合する新しい生成モデルである。
ニューラルビデオ圧縮の最近の進歩にインスパイアされた我々は、デノナイジング拡散モデルを使用して、決定論的次フレーム予測に残留するベースラインを生成する。
複雑な高解像度ビデオのフレーム予測において,すべてのデータに対する知覚的品質の面での大幅な改善と,その改善が期待できる。
論文 参考訳(メタデータ) (2022-03-16T03:52:45Z) - Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。
本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。
さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文 参考訳(メタデータ) (2021-07-28T02:19:39Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。