論文の概要: Fourier-based Video Prediction through Relational Object Motion
- arxiv url: http://arxiv.org/abs/2110.05881v1
- Date: Tue, 12 Oct 2021 10:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:50:58.460029
- Title: Fourier-based Video Prediction through Relational Object Motion
- Title(参考訳): リレーショナル物体運動によるフーリエ映像の予測
- Authors: Malte Mosbach, Sven Behnke
- Abstract要約: ビデオ予測のタスクには, 深い再帰的アーキテクチャが適用されている。
本稿では、周波数領域のアプローチをビデオ予測に用い、異なるアプローチを提案する。
結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに苦しむことはない。
- 参考スコア(独自算出の注目度): 28.502280038100167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to predict future outcomes conditioned on observed video frames
is crucial for intelligent decision-making in autonomous systems. Recently,
deep recurrent architectures have been applied to the task of video prediction.
However, this often results in blurry predictions and requires tedious training
on large datasets. Here, we explore a different approach by (1) using
frequency-domain approaches for video prediction and (2) explicitly inferring
object-motion relationships in the observed scene. The resulting predictions
are consistent with the observed dynamics in a scene and do not suffer from
blur.
- Abstract(参考訳): 監視されたビデオフレームに基づいて将来の結果を予測する能力は、自律システムにおけるインテリジェントな意思決定に不可欠である。
近年,映像予測の課題に深部再帰型アーキテクチャを適用している。
しかし、これはしばしばぼやけた予測となり、大規模なデータセットでの退屈なトレーニングを必要とする。
本稿では,(1)映像予測のための周波数領域アプローチ,(2)観察シーンにおけるオブジェクト-モーション関係を明示的に推定するアプローチについて検討する。
結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに悩まされない。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Object-Centric Video Prediction via Decoupling of Object Dynamics and
Interactions [27.112210225969733]
本稿では,映像系列の構造を抽出し,オブジェクトのダイナミックスやインタラクションを視覚的観察からモデル化する,オブジェクト中心のビデオ予測タスクのための新しいフレームワークを提案する。
そこで本研究では,時間的ダイナミクスとオブジェクトの相互作用の処理を分離した2つのオブジェクト中心ビデオ予測器(OCVP)トランスフォーマモジュールを提案する。
実験では、OCVP予測器を用いたオブジェクト中心の予測フレームワークが、2つの異なるデータセットにおけるオブジェクト非依存のビデオ予測モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T08:29:26Z) - PREF: Predictability Regularized Neural Motion Fields [68.60019434498703]
ダイナミックなシーンで3Dの動きを知ることは、多くの視覚応用にとって不可欠である。
多視点設定における全ての点の運動を推定するために神経運動場を利用する。
予測可能な動きを正規化することを提案する。
論文 参考訳(メタデータ) (2022-09-21T22:32:37Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Semantic Prediction: Which One Should Come First, Recognition or
Prediction? [21.466783934830925]
下流の主なタスクの1つは、シーンのセマンティックな構成を解釈し、意思決定にそれを使用することである。
事前学習されたビデオ予測と事前学習された意味抽出モデルを考えると、同じ結果を得るための主な方法は2つある。
ビデオ予測モデルとしてLFDTN(Local Frequency Domain Transformer Network)と,合成データセットと実データセットのセマンティック抽出モデルとしてU-Netを用いて,これらの構成について検討する。
論文 参考訳(メタデータ) (2021-10-06T15:01:05Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。