論文の概要: A polar prediction model for learning to represent visual
transformations
- arxiv url: http://arxiv.org/abs/2303.03432v2
- Date: Tue, 31 Oct 2023 01:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:42:13.579410
- Title: A polar prediction model for learning to represent visual
transformations
- Title(参考訳): 視覚変換を表現する学習のための極性予測モデル
- Authors: Pierre-\'Etienne H. Fiquet, Eero P. Simoncelli
- Abstract要約: 本稿では,自然映像の規則性を利用して正確な予測を行う自己教師付き表現学習フレームワークを提案する。
自然なビデオデータセットをトレーニングすると、従来の動き補償よりも優れた予測性能が得られる。
我々のフレームワークは、視覚システムが時間的予測を単純化する形で感覚入力をどのように表現するかを理解するための、原則化されたフレームワークを提供する。
- 参考スコア(独自算出の注目度): 10.857320773825357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: All organisms make temporal predictions, and their evolutionary fitness level
depends on the accuracy of these predictions. In the context of visual
perception, the motions of both the observer and objects in the scene structure
the dynamics of sensory signals, allowing for partial prediction of future
signals based on past ones. Here, we propose a self-supervised
representation-learning framework that extracts and exploits the regularities
of natural videos to compute accurate predictions. We motivate the polar
architecture by appealing to the Fourier shift theorem and its group-theoretic
generalization, and we optimize its parameters on next-frame prediction.
Through controlled experiments, we demonstrate that this approach can discover
the representation of simple transformation groups acting in data. When trained
on natural video datasets, our framework achieves better prediction performance
than traditional motion compensation and rivals conventional deep networks,
while maintaining interpretability and speed. Furthermore, the polar
computations can be restructured into components resembling normalized simple
and direction-selective complex cell models of primate V1 neurons. Thus, polar
prediction offers a principled framework for understanding how the visual
system represents sensory inputs in a form that simplifies temporal prediction.
- Abstract(参考訳): 全ての生物は時間的予測を行い、その進化的適合度はこれらの予測の精度に依存する。
視覚的知覚の文脈では、シーン内のオブザーバとオブジェクトの両方の動きは感覚信号のダイナミクスを構造化し、過去の信号に基づいて将来の信号の一部を予測することができる。
本稿では,自然映像の正則性を抽出・活用し,正確な予測を行う自己教師付き表現学習フレームワークを提案する。
我々は、フーリエシフト定理とその群論的一般化に訴え、極性アーキテクチャを動機付け、そのパラメータを次のフレーム予測に最適化する。
制御された実験を通じて、このアプローチがデータに作用する単純な変換群の表現を発見できることを実証する。
自然なビデオデータセットでトレーニングすると、従来のモーション補償や従来のディープネットワークよりも優れた予測性能を達成し、解釈性と速度を維持します。
さらに、極性計算は、霊長類V1ニューロンの正常化された単純および方向選択的複合細胞モデルに似たコンポーネントに再構成することができる。
このように極性予測は、視覚システムが時間的予測を単純化する形で感覚入力をどのように表現するかを理解するための原則化された枠組みを提供する。
関連論文リスト
- Learning predictable and robust neural representations by straightening image sequences [16.504807843249196]
我々は、ストレートニングを明確に定量化し、促進する自己教師型学習(SSL)の目標を開発する。
本研究では、この目的が、スムーズにレンダリングされた合成画像シーケンス上で、ディープフィードフォワードニューラルネットワークをトレーニングする際の効果を実証する。
論文 参考訳(メタデータ) (2024-11-04T03:58:09Z) - Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [45.886941596233974]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。
提案するフレームワークは、生成アーキテクチャの潜在空間においてL-OGM予測を行う。
我々は、リアルタイムに高品質な予測を提供するシングルステップデコーダまたは拡散ベースのバッチデコーダを用いて予測をデコードする。
論文 参考訳(メタデータ) (2024-07-30T18:37:59Z) - GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - Towards Generalizable and Interpretable Motion Prediction: A Deep
Variational Bayes Approach [54.429396802848224]
本稿では,分布外ケースに対する頑健な一般化性を有する動き予測のための解釈可能な生成モデルを提案する。
このモデルでは, 長期目的地の空間分布を推定することにより, 目標駆動動作予測を実現する。
動き予測データセットの実験は、適合したモデルが解釈可能で一般化可能であることを検証した。
論文 参考訳(メタデータ) (2024-03-10T04:16:04Z) - Brain-like representational straightening of natural movies in robust
feedforward neural networks [2.8749107965043286]
表現の直線化(Representational straightening)とは、自然映画から撮影された一連のフレームの視覚的特徴表現の曲率を減少させることである。
入力画像中の雑音に対するロバスト性は、フィードフォワードニューラルネットワークにおいて表現的ストレート化をもたらす。
論文 参考訳(メタデータ) (2023-08-26T13:04:36Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Fourier-based Video Prediction through Relational Object Motion [28.502280038100167]
ビデオ予測のタスクには, 深い再帰的アーキテクチャが適用されている。
本稿では、周波数領域のアプローチをビデオ予測に用い、異なるアプローチを提案する。
結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに苦しむことはない。
論文 参考訳(メタデータ) (2021-10-12T10:43:05Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Predicting Temporal Sets with Deep Neural Networks [50.53727580527024]
本稿では,時間集合予測のためのディープニューラルネットワークに基づく統合解を提案する。
ユニークな視点は、セットレベルの共起グラフを構築することで要素関係を学ぶことである。
我々は,要素や集合の時間依存性を適応的に学習するアテンションベースのモジュールを設計する。
論文 参考訳(メタデータ) (2020-06-20T03:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。