論文の概要: Video Prediction at Multiple Scales with Hierarchical Recurrent Networks
- arxiv url: http://arxiv.org/abs/2203.09303v1
- Date: Thu, 17 Mar 2022 13:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 22:22:06.474143
- Title: Video Prediction at Multiple Scales with Hierarchical Recurrent Networks
- Title(参考訳): 階層的リカレントネットワークを用いた複数スケールのビデオ予測
- Authors: Ani Karapetyan, Angel Villar-Corrales, Andreas Boltres and Sven Behnke
- Abstract要約: 本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
- 参考スコア(独自算出の注目度): 24.536256844130996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems not only need to understand their current environment, but
should also be able to predict future actions conditioned on past states, for
instance based on captured camera frames. For certain tasks, detailed
predictions such as future video frames are required in the near future,
whereas for others it is beneficial to also predict more abstract
representations for longer time horizons. However, existing video prediction
models mainly focus on forecasting detailed possible outcomes for short
time-horizons, hence being of limited use for robot perception and spatial
reasoning. We propose Multi-Scale Hierarchical Prediction (MSPred), a novel
video prediction model able to forecast future possible outcomes of different
levels of granularity at different time-scales simultaneously. By combining
spatial and temporal downsampling, MSPred is able to efficiently predict
abstract representations such as human poses or object locations over long time
horizons, while still maintaining a competitive performance for video frame
prediction. In our experiments, we demonstrate that our proposed model
accurately predicts future video frames as well as other representations (e.g.
keypoints or positions) on various scenarios, including bin-picking scenes or
action recognition datasets, consistently outperforming popular approaches for
video frame prediction. Furthermore, we conduct an ablation study to
investigate the importance of the different modules and design choices in
MSPred. In the spirit of reproducible research, we open-source VP-Suite, a
general framework for deep-learning-based video prediction, as well as
pretrained models to reproduce our results.
- Abstract(参考訳): 自律システムは、現在の環境を理解するだけでなく、例えば撮影されたカメラフレームに基づいて、過去の状態に条件付けられた将来のアクションを予測できる必要がある。
あるタスクでは、将来的なビデオフレームのような詳細な予測が必要であるが、他のタスクではより抽象的な表現をより長い時間軸で予測することも有益である。
しかし、既存のビデオ予測モデルは、短い時間ホリゾンの詳細な結果を予測することに重点を置いているため、ロボットの知覚や空間的推論の用途は限られている。
異なる時間スケールで異なる粒度の将来の結果を同時に予測できる新しいビデオ予測モデルであるMulti-Scale Hierarchical Prediction (MSPred)を提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、mspredは人間のポーズや物体の位置といった抽象的な表現を長時間の地平線上で効率的に予測することができる。
実験では,提案モデルが将来的な映像フレームや,ビンピッキングシーンやアクション認識データセットなど,様々なシナリオにおける他の表現(キーポイントや位置など)を正確に予測し,映像フレームの予測に対する一般的なアプローチを一貫して上回ることを示す。
さらに, MSPredにおける異なるモジュールの重要性と設計選択について, アブレーション研究を行った。
再現性のある研究の精神において、我々はディープラーニングに基づくビデオ予測のための一般的なフレームワークであるVP-Suiteをオープンソース化し、その結果を再現するための事前学習モデルを作成しました。
関連論文リスト
- STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。
我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-04-20T13:42:51Z) - StretchBEV: Stretching Future Instance Prediction Spatially and
Temporally [0.0]
自動運転車では、車を取り巻くすべてのエージェントの位置と動きから未来を予測することが、計画にとって重要な要件である。
近年,複数のカメラから知覚されるリッチな感覚情報を小型の鳥眼ビュー表現に融合させて予測を行うことにより,知覚と予測の新たな共同定式化が進んでいる。
しかし、将来の予測の質は、複数の妥当な予測のために、より長い時間的地平線に拡張しながら、時間とともに劣化する。
本研究では,将来の予測におけるこのような不確実性に時間的モデルを用いて対処する。
論文 参考訳(メタデータ) (2022-03-25T13:28:44Z) - Fourier-based Video Prediction through Relational Object Motion [28.502280038100167]
ビデオ予測のタスクには, 深い再帰的アーキテクチャが適用されている。
本稿では、周波数領域のアプローチをビデオ予測に用い、異なるアプローチを提案する。
結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに苦しむことはない。
論文 参考訳(メタデータ) (2021-10-12T10:43:05Z) - Semantic Prediction: Which One Should Come First, Recognition or
Prediction? [21.466783934830925]
下流の主なタスクの1つは、シーンのセマンティックな構成を解釈し、意思決定にそれを使用することである。
事前学習されたビデオ予測と事前学習された意味抽出モデルを考えると、同じ結果を得るための主な方法は2つある。
ビデオ予測モデルとしてLFDTN(Local Frequency Domain Transformer Network)と,合成データセットと実データセットのセマンティック抽出モデルとしてU-Netを用いて,これらの構成について検討する。
論文 参考訳(メタデータ) (2021-10-06T15:01:05Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。