論文の概要: Polar Prediction of Natural Videos
- arxiv url: http://arxiv.org/abs/2303.03432v1
- Date: Mon, 6 Mar 2023 19:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 17:41:59.230876
- Title: Polar Prediction of Natural Videos
- Title(参考訳): 自然映像の極性予測
- Authors: Pierre-\'Etienne H. Fiquet, Eero P. Simoncelli
- Abstract要約: 学習した局所的な極座標でビデオフレームを表現するネットワークを構築します。
我々は、これらのモデルを自然言語ビデオの次のフレーム予測に基づいてトレーニングする。
極性予測器は解釈可能かつ高速でありながら性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 6.713564212269253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Observer motion and continuous deformations of objects and surfaces imbue
natural videos with distinct temporal structures, enabling partial prediction
of future frames from past ones. Conventional methods first estimate local
motion, or optic flow, and then use it to predict future frames by warping or
copying content. Here, we explore a more direct methodology, in which each
frame is mapped into a learned representation space where the structure of
temporal evolution is more readily accessible. Motivated by the geometry of the
Fourier shift theorem and its group-theoretic generalization, we formulate a
simple architecture that represents video frames in learned local polar
coordinates. Specifically, we construct networks in which pairs of
convolutional channel coefficients are treated as complex-valued, and are
optimized to evolve with slowly varying amplitudes and linearly advancing
phases. We train these models on next-frame prediction in natural videos, and
compare their performance with that of conventional methods using optic flow as
well as predictive neural networks. We find that the polar predictor achieves
better performance while remaining interpretable and fast, thereby
demonstrating the potential of a flow-free video processing methodology that is
trained end-to-end to predict natural video content.
- Abstract(参考訳): 物体や表面のオブザーバ運動と連続的な変形は、異なる時間構造を持つ自然映像を生かし、過去のフレームを部分的に予測することができる。
従来の手法では、まず局所的な動き(光の流れ)を推定し、次にコンテンツのウォーピングやコピーによって将来のフレームを予測する。
本稿では、各フレームを時間的進化の構造が容易にアクセス可能な学習された表現空間にマッピングする、より直接的な方法論を検討する。
フーリエシフト定理の幾何学と群理論の一般化により、学習された局所極座標におけるビデオフレームを表す単純なアーキテクチャを定式化する。
具体的には、畳み込みチャネル係数のペアを複素値として扱うネットワークを構築し、ゆっくりと変化する振幅と線形進行位相で進化するように最適化する。
これらのモデルを自然ビデオの次のフレーム予測で訓練し,その性能を従来の光学フロー法や予測ニューラルネットワーク法と比較した。
極性予測器は、解釈可能かつ高速でありながら優れた性能を達成し、自然な映像コンテンツを予測するためにエンドツーエンドに訓練されたフローフリーなビデオ処理手法の可能性を示す。
関連論文リスト
- Towards Generalizable and Interpretable Motion Prediction: A Deep
Variational Bayes Approach [54.429396802848224]
本稿では,分布外ケースに対する頑健な一般化性を有する動き予測のための解釈可能な生成モデルを提案する。
このモデルでは, 長期目的地の空間分布を推定することにより, 目標駆動動作予測を実現する。
動き予測データセットの実験は、適合したモデルが解釈可能で一般化可能であることを検証した。
論文 参考訳(メタデータ) (2024-03-10T04:16:04Z) - Brain-like representational straightening of natural movies in robust
feedforward neural networks [2.8749107965043286]
表現の直線化(Representational straightening)とは、自然映画から撮影された一連のフレームの視覚的特徴表現の曲率を減少させることである。
入力画像中の雑音に対するロバスト性は、フィードフォワードニューラルネットワークにおいて表現的ストレート化をもたらす。
論文 参考訳(メタデータ) (2023-08-26T13:04:36Z) - V1T: large-scale mouse V1 response prediction using a Vision Transformer [1.5703073293718952]
動物間における視覚的・行動的表現の共有を学習するビジョントランスフォーマーに基づく新しいアーキテクチャであるV1Tを紹介する。
マウスの一次視覚野から記録された2つの大きなデータセットを用いて、我々のモデルを評価し、予測性能を12.7%以上向上させた。
論文 参考訳(メタデータ) (2023-02-06T18:58:38Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Fourier-based Video Prediction through Relational Object Motion [28.502280038100167]
ビデオ予測のタスクには, 深い再帰的アーキテクチャが適用されている。
本稿では、周波数領域のアプローチをビデオ予測に用い、異なるアプローチを提案する。
結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに苦しむことはない。
論文 参考訳(メタデータ) (2021-10-12T10:43:05Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Predicting Temporal Sets with Deep Neural Networks [50.53727580527024]
本稿では,時間集合予測のためのディープニューラルネットワークに基づく統合解を提案する。
ユニークな視点は、セットレベルの共起グラフを構築することで要素関係を学ぶことである。
我々は,要素や集合の時間依存性を適応的に学習するアテンションベースのモジュールを設計する。
論文 参考訳(メタデータ) (2020-06-20T03:29:02Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。