論文の概要: Local Frequency Domain Transformer Networks for Video Prediction
- arxiv url: http://arxiv.org/abs/2105.04637v1
- Date: Mon, 10 May 2021 19:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:03:57.569233
- Title: Local Frequency Domain Transformer Networks for Video Prediction
- Title(参考訳): 局所周波数領域トランスフォーマネットワークによる映像予測
- Authors: Hafez Farazi, Jan Nogga, Sven Behnke
- Abstract要約: ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
- 参考スコア(独自算出の注目度): 24.126513851779936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction is commonly referred to as forecasting future frames of a
video sequence provided several past frames thereof. It remains a challenging
domain as visual scenes evolve according to complex underlying dynamics, such
as the camera's egocentric motion or the distinct motility per individual
object viewed. These are mostly hidden from the observer and manifest as often
highly non-linear transformations between consecutive video frames. Therefore,
video prediction is of interest not only in anticipating visual changes in the
real world but has, above all, emerged as an unsupervised learning rule
targeting the formation and dynamics of the observed environment. Many of the
deep learning-based state-of-the-art models for video prediction utilize some
form of recurrent layers like Long Short-Term Memory (LSTMs) or Gated Recurrent
Units (GRUs) at the core of their models. Although these models can predict the
future frames, they rely entirely on these recurrent structures to
simultaneously perform three distinct tasks: extracting transformations,
projecting them into the future, and transforming the current frame. In order
to completely interpret the formed internal representations, it is crucial to
disentangle these tasks. This paper proposes a fully differentiable building
block that can perform all of those tasks separately while maintaining
interpretability. We derive the relevant theoretical foundations and showcase
results on synthetic as well as real data. We demonstrate that our method is
readily extended to perform motion segmentation and account for the scene's
composition, and learns to produce reliable predictions in an entirely
interpretable manner by only observing unlabeled video data.
- Abstract(参考訳): ビデオ予測は、複数の過去のフレームを備えたビデオシーケンスの将来のフレームを予測するためによく用いられる。
視覚的なシーンは、カメラの自我中心的な動きや、個々の物体ごとに異なる運動性など、複雑な基盤となるダイナミクスに従って進化する。
これらは主に観察者から隠され、連続するビデオフレーム間の高い非線形変換として表される。
したがって、映像予測は、現実世界の視覚的変化を予想するだけでなく、観察された環境の形成とダイナミクスをターゲットとした教師なし学習規則として出現した。
ビデオ予測のためのディープラーニングベースの最先端モデルの多くは、Long Short-Term Memory (LSTM) や Gated Recurrent Units (GRU) といった、モデルの中心にあるある種の繰り返しレイヤを利用している。
これらのモデルは将来のフレームを予測できるが、これら再帰的な構造に完全に依存して、変換の抽出、未来への投影、現在のフレームの変換という3つの異なるタスクを同時に実行する。
生成した内部表現を完全に解釈するには、これらのタスクを分離することが不可欠である。
本稿では,解釈性を維持しつつ,これらすべてのタスクを個別に実行できる,完全に微分可能なビルディングブロックを提案する。
関連する理論的基礎を導出し、実データと同様に合成結果を示す。
本手法は,動きのセグメンテーションやシーンの構成を考慮するために容易に拡張でき,ラベルなしの映像データのみを観察することで,完全に解釈可能な方法で信頼できる予測を作成できることを実証する。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Visual Representation Learning with Stochastic Frame Prediction [90.99577838303297]
本稿では,フレーム予測における不確実性を捉えることを学ぶ映像生成の考え方を再考する。
フレーム間の時間情報を学習するためのフレーム予測モデルを訓練するフレームワークを設計する。
このアーキテクチャは、両目的を相乗的かつ計算効率のよい方法で組み合わせることができる。
論文 参考訳(メタデータ) (2024-06-11T16:05:15Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Stochastic Video Prediction with Structure and Motion [14.424465835834042]
本稿では,映像観察を静的・動的成分に分解する手法を提案する。
前景と背景の変化の分布を別々に学習することで、シーンを静的と動的に分解することができる。
我々の実験は、遠心構造と動きが映像の予測に役立ち、複雑な運転シナリオにおける将来の予測に繋がることを示した。
論文 参考訳(メタデータ) (2022-03-20T11:29:46Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z) - Photo-Realistic Video Prediction on Natural Videos of Largely Changing
Frames [0.0]
本研究では,各層が空間分解能の異なる将来の状態を予測できる階層型ネットワークを提案する。
我々は,車載カメラで捉えた自然な映像データセットを用いて,敵対的・知覚的損失関数を用いてモデルを訓練した。
論文 参考訳(メタデータ) (2020-03-19T09:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。