論文の概要: FitVid: Overfitting in Pixel-Level Video Prediction
- arxiv url: http://arxiv.org/abs/2106.13195v1
- Date: Thu, 24 Jun 2021 17:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:14:48.799750
- Title: FitVid: Overfitting in Pixel-Level Video Prediction
- Title(参考訳): FitVid:Pixel-Levelビデオ予測のオーバーフィッティング
- Authors: Mohammad Babaeizadeh, Mohammad Taghi Saffar, Suraj Nair, Sergey
Levine, Chelsea Finn, Dumitru Erhan
- Abstract要約: われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
- 参考スコア(独自算出の注目度): 117.59339756506142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An agent that is capable of predicting what happens next can perform a
variety of tasks through planning with no additional training. Furthermore,
such an agent can internally represent the complex dynamics of the real-world
and therefore can acquire a representation useful for a variety of visual
perception tasks. This makes predicting the future frames of a video,
conditioned on the observed past and potentially future actions, an interesting
task which remains exceptionally challenging despite many recent advances.
Existing video prediction models have shown promising results on simple narrow
benchmarks but they generate low quality predictions on real-life datasets with
more complicated dynamics or broader domain. There is a growing body of
evidence that underfitting on the training data is one of the primary causes
for the low quality predictions. In this paper, we argue that the inefficient
use of parameters in the current video models is the main reason for
underfitting. Therefore, we introduce a new architecture, named FitVid, which
is capable of severe overfitting on the common benchmarks while having similar
parameter count as the current state-of-the-art models. We analyze the
consequences of overfitting, illustrating how it can produce unexpected
outcomes such as generating high quality output by repeating the training data,
and how it can be mitigated using existing image augmentation techniques. As a
result, FitVid outperforms the current state-of-the-art models across four
different video prediction benchmarks on four different metrics.
- Abstract(参考訳): 次に何が起こるかを予測するエージェントは、追加のトレーニングなしで計画することで、さまざまなタスクを実行することができる。
さらに、そのようなエージェントは現実世界の複雑なダイナミクスを内部的に表現することができ、様々な視覚的知覚タスクに有用な表現を得ることができる。
これにより、観測された過去と潜在的に将来の行動に基づいて、ビデオの将来のフレームを予測することができる。
既存のビデオ予測モデルは、単純な狭いベンチマークで有望な結果を示しているが、より複雑なダイナミクスやより広いドメインを持つ実際のデータセットで低品質の予測を生成する。
トレーニングデータに不適合なことが、低品質な予測の主要な原因の1つであるという証拠が増えている。
本稿では,現在の映像モデルにおけるパラメータの非効率使用が,不適合の主な原因であると主張する。
そこで本研究では,共通ベンチマークを過大に満たしながら,現在の最先端モデルと同様のパラメータ数を持つfitvidという新しいアーキテクチャを提案する。
オーバーフィッティングの結果を分析し、トレーニングデータを繰り返して高品質なアウトプットを生成するような予期せぬ結果を生み出す方法や、既存の画像拡張技術を用いてどのように軽減できるかを示す。
その結果、FitVidは4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
関連論文リスト
- Towards Non-Parametric Models for Confidence Aware Image Prediction from
Low Data using Gaussian Processes [24.086152086351408]
我々は、非常に少ないトレーニングデータから、画像シーケンスの将来の画像を予測する問題に焦点をあてる。
逐次予測画像上で確率分布を生成し、時間を通して不確実性を伝播し、信頼度を生成する。
本研究では,スムーズな流体シミュレーション環境における将来のフレームの予測に成功して,本手法を実証する。
論文 参考訳(メタデータ) (2023-07-20T22:35:27Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - Transformation-based Adversarial Video Prediction on Large-Scale Data [19.281817081571408]
本稿では,映像から抽出したフレーム列を考慮に入れた上で,映像予測の課題に焦点をあてる。
まず, 判別器分解の系統的研究を行い, その状態を改善する。
そこで我々は,従来の隠れ状態が予測された動きにしたがって変化する新しい再帰ユニットを提案する。
論文 参考訳(メタデータ) (2020-03-09T10:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。