論文の概要: Local Frequency Domain Transformer Networks for Video Prediction
- arxiv url: http://arxiv.org/abs/2105.04637v1
- Date: Mon, 10 May 2021 19:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:03:57.569233
- Title: Local Frequency Domain Transformer Networks for Video Prediction
- Title(参考訳): 局所周波数領域トランスフォーマネットワークによる映像予測
- Authors: Hafez Farazi, Jan Nogga, Sven Behnke
- Abstract要約: ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
- 参考スコア(独自算出の注目度): 24.126513851779936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction is commonly referred to as forecasting future frames of a
video sequence provided several past frames thereof. It remains a challenging
domain as visual scenes evolve according to complex underlying dynamics, such
as the camera's egocentric motion or the distinct motility per individual
object viewed. These are mostly hidden from the observer and manifest as often
highly non-linear transformations between consecutive video frames. Therefore,
video prediction is of interest not only in anticipating visual changes in the
real world but has, above all, emerged as an unsupervised learning rule
targeting the formation and dynamics of the observed environment. Many of the
deep learning-based state-of-the-art models for video prediction utilize some
form of recurrent layers like Long Short-Term Memory (LSTMs) or Gated Recurrent
Units (GRUs) at the core of their models. Although these models can predict the
future frames, they rely entirely on these recurrent structures to
simultaneously perform three distinct tasks: extracting transformations,
projecting them into the future, and transforming the current frame. In order
to completely interpret the formed internal representations, it is crucial to
disentangle these tasks. This paper proposes a fully differentiable building
block that can perform all of those tasks separately while maintaining
interpretability. We derive the relevant theoretical foundations and showcase
results on synthetic as well as real data. We demonstrate that our method is
readily extended to perform motion segmentation and account for the scene's
composition, and learns to produce reliable predictions in an entirely
interpretable manner by only observing unlabeled video data.
- Abstract(参考訳): ビデオ予測は、複数の過去のフレームを備えたビデオシーケンスの将来のフレームを予測するためによく用いられる。
視覚的なシーンは、カメラの自我中心的な動きや、個々の物体ごとに異なる運動性など、複雑な基盤となるダイナミクスに従って進化する。
これらは主に観察者から隠され、連続するビデオフレーム間の高い非線形変換として表される。
したがって、映像予測は、現実世界の視覚的変化を予想するだけでなく、観察された環境の形成とダイナミクスをターゲットとした教師なし学習規則として出現した。
ビデオ予測のためのディープラーニングベースの最先端モデルの多くは、Long Short-Term Memory (LSTM) や Gated Recurrent Units (GRU) といった、モデルの中心にあるある種の繰り返しレイヤを利用している。
これらのモデルは将来のフレームを予測できるが、これら再帰的な構造に完全に依存して、変換の抽出、未来への投影、現在のフレームの変換という3つの異なるタスクを同時に実行する。
生成した内部表現を完全に解釈するには、これらのタスクを分離することが不可欠である。
本稿では,解釈性を維持しつつ,これらすべてのタスクを個別に実行できる,完全に微分可能なビルディングブロックを提案する。
関連する理論的基礎を導出し、実データと同様に合成結果を示す。
本手法は,動きのセグメンテーションやシーンの構成を考慮するために容易に拡張でき,ラベルなしの映像データのみを観察することで,完全に解釈可能な方法で信頼できる予測を作成できることを実証する。
関連論文リスト
- Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Stochastic Video Prediction with Structure and Motion [14.424465835834042]
本稿では,映像観察を静的・動的成分に分解する手法を提案する。
前景と背景の変化の分布を別々に学習することで、シーンを静的と動的に分解することができる。
我々の実験は、遠心構造と動きが映像の予測に役立ち、複雑な運転シナリオにおける将来の予測に繋がることを示した。
論文 参考訳(メタデータ) (2022-03-20T11:29:46Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z) - Photo-Realistic Video Prediction on Natural Videos of Largely Changing
Frames [0.0]
本研究では,各層が空間分解能の異なる将来の状態を予測できる階層型ネットワークを提案する。
我々は,車載カメラで捉えた自然な映像データセットを用いて,敵対的・知覚的損失関数を用いてモデルを訓練した。
論文 参考訳(メタデータ) (2020-03-19T09:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。