論文の概要: FitVid: Overfitting in Pixel-Level Video Prediction
- arxiv url: http://arxiv.org/abs/2106.13195v1
- Date: Thu, 24 Jun 2021 17:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:14:48.799750
- Title: FitVid: Overfitting in Pixel-Level Video Prediction
- Title(参考訳): FitVid:Pixel-Levelビデオ予測のオーバーフィッティング
- Authors: Mohammad Babaeizadeh, Mohammad Taghi Saffar, Suraj Nair, Sergey
Levine, Chelsea Finn, Dumitru Erhan
- Abstract要約: われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
- 参考スコア(独自算出の注目度): 117.59339756506142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An agent that is capable of predicting what happens next can perform a
variety of tasks through planning with no additional training. Furthermore,
such an agent can internally represent the complex dynamics of the real-world
and therefore can acquire a representation useful for a variety of visual
perception tasks. This makes predicting the future frames of a video,
conditioned on the observed past and potentially future actions, an interesting
task which remains exceptionally challenging despite many recent advances.
Existing video prediction models have shown promising results on simple narrow
benchmarks but they generate low quality predictions on real-life datasets with
more complicated dynamics or broader domain. There is a growing body of
evidence that underfitting on the training data is one of the primary causes
for the low quality predictions. In this paper, we argue that the inefficient
use of parameters in the current video models is the main reason for
underfitting. Therefore, we introduce a new architecture, named FitVid, which
is capable of severe overfitting on the common benchmarks while having similar
parameter count as the current state-of-the-art models. We analyze the
consequences of overfitting, illustrating how it can produce unexpected
outcomes such as generating high quality output by repeating the training data,
and how it can be mitigated using existing image augmentation techniques. As a
result, FitVid outperforms the current state-of-the-art models across four
different video prediction benchmarks on four different metrics.
- Abstract(参考訳): 次に何が起こるかを予測するエージェントは、追加のトレーニングなしで計画することで、さまざまなタスクを実行することができる。
さらに、そのようなエージェントは現実世界の複雑なダイナミクスを内部的に表現することができ、様々な視覚的知覚タスクに有用な表現を得ることができる。
これにより、観測された過去と潜在的に将来の行動に基づいて、ビデオの将来のフレームを予測することができる。
既存のビデオ予測モデルは、単純な狭いベンチマークで有望な結果を示しているが、より複雑なダイナミクスやより広いドメインを持つ実際のデータセットで低品質の予測を生成する。
トレーニングデータに不適合なことが、低品質な予測の主要な原因の1つであるという証拠が増えている。
本稿では,現在の映像モデルにおけるパラメータの非効率使用が,不適合の主な原因であると主張する。
そこで本研究では,共通ベンチマークを過大に満たしながら,現在の最先端モデルと同様のパラメータ数を持つfitvidという新しいアーキテクチャを提案する。
オーバーフィッティングの結果を分析し、トレーニングデータを繰り返して高品質なアウトプットを生成するような予期せぬ結果を生み出す方法や、既存の画像拡張技術を用いてどのように軽減できるかを示す。
その結果、FitVidは4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Existence Is Chaos: Enhancing 3D Human Motion Prediction with Uncertainty Consideration [27.28184416632815]
トレーニングデータにおける記録された動きは、所定の結果ではなく、将来の可能性の観測である可能性が示唆された。
不確実性を考慮した計算効率の良いエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2024-03-21T03:34:18Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。