論文の概要: Video Prediction at Multiple Scales with Hierarchical Recurrent Networks
- arxiv url: http://arxiv.org/abs/2203.09303v1
- Date: Thu, 17 Mar 2022 13:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 22:22:06.474143
- Title: Video Prediction at Multiple Scales with Hierarchical Recurrent Networks
- Title(参考訳): 階層的リカレントネットワークを用いた複数スケールのビデオ予測
- Authors: Ani Karapetyan, Angel Villar-Corrales, Andreas Boltres and Sven Behnke
- Abstract要約: 本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
- 参考スコア(独自算出の注目度): 24.536256844130996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems not only need to understand their current environment, but
should also be able to predict future actions conditioned on past states, for
instance based on captured camera frames. For certain tasks, detailed
predictions such as future video frames are required in the near future,
whereas for others it is beneficial to also predict more abstract
representations for longer time horizons. However, existing video prediction
models mainly focus on forecasting detailed possible outcomes for short
time-horizons, hence being of limited use for robot perception and spatial
reasoning. We propose Multi-Scale Hierarchical Prediction (MSPred), a novel
video prediction model able to forecast future possible outcomes of different
levels of granularity at different time-scales simultaneously. By combining
spatial and temporal downsampling, MSPred is able to efficiently predict
abstract representations such as human poses or object locations over long time
horizons, while still maintaining a competitive performance for video frame
prediction. In our experiments, we demonstrate that our proposed model
accurately predicts future video frames as well as other representations (e.g.
keypoints or positions) on various scenarios, including bin-picking scenes or
action recognition datasets, consistently outperforming popular approaches for
video frame prediction. Furthermore, we conduct an ablation study to
investigate the importance of the different modules and design choices in
MSPred. In the spirit of reproducible research, we open-source VP-Suite, a
general framework for deep-learning-based video prediction, as well as
pretrained models to reproduce our results.
- Abstract(参考訳): 自律システムは、現在の環境を理解するだけでなく、例えば撮影されたカメラフレームに基づいて、過去の状態に条件付けられた将来のアクションを予測できる必要がある。
あるタスクでは、将来的なビデオフレームのような詳細な予測が必要であるが、他のタスクではより抽象的な表現をより長い時間軸で予測することも有益である。
しかし、既存のビデオ予測モデルは、短い時間ホリゾンの詳細な結果を予測することに重点を置いているため、ロボットの知覚や空間的推論の用途は限られている。
異なる時間スケールで異なる粒度の将来の結果を同時に予測できる新しいビデオ予測モデルであるMulti-Scale Hierarchical Prediction (MSPred)を提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、mspredは人間のポーズや物体の位置といった抽象的な表現を長時間の地平線上で効率的に予測することができる。
実験では,提案モデルが将来的な映像フレームや,ビンピッキングシーンやアクション認識データセットなど,様々なシナリオにおける他の表現(キーポイントや位置など)を正確に予測し,映像フレームの予測に対する一般的なアプローチを一貫して上回ることを示す。
さらに, MSPredにおける異なるモジュールの重要性と設計選択について, アブレーション研究を行った。
再現性のある研究の精神において、我々はディープラーニングに基づくビデオ予測のための一般的なフレームワークであるVP-Suiteをオープンソース化し、その結果を再現するための事前学習モデルを作成しました。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - SIAM: A Simple Alternating Mixer for Video Prediction [42.03590872477933]
以前のフレームから将来のフレームを予測するビデオは、自律運転や天気予報といった幅広い応用がある。
我々は、これらの機能を統一エンコーダデコーダフレームワークで明示的にモデル化し、新しい簡易性(SIAM)を提案する。
SIAMは、空間的、時間的、時間的特徴をモデル化できる交互混合(Da)ブロックの設計にある。
論文 参考訳(メタデータ) (2023-11-20T11:28:18Z) - STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。
我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-04-20T13:42:51Z) - Fourier-based Video Prediction through Relational Object Motion [28.502280038100167]
ビデオ予測のタスクには, 深い再帰的アーキテクチャが適用されている。
本稿では、周波数領域のアプローチをビデオ予測に用い、異なるアプローチを提案する。
結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに苦しむことはない。
論文 参考訳(メタデータ) (2021-10-12T10:43:05Z) - Semantic Prediction: Which One Should Come First, Recognition or
Prediction? [21.466783934830925]
下流の主なタスクの1つは、シーンのセマンティックな構成を解釈し、意思決定にそれを使用することである。
事前学習されたビデオ予測と事前学習された意味抽出モデルを考えると、同じ結果を得るための主な方法は2つある。
ビデオ予測モデルとしてLFDTN(Local Frequency Domain Transformer Network)と,合成データセットと実データセットのセマンティック抽出モデルとしてU-Netを用いて,これらの構成について検討する。
論文 参考訳(メタデータ) (2021-10-06T15:01:05Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。