論文の概要: A polar prediction model for learning to represent visual
transformations
- arxiv url: http://arxiv.org/abs/2303.03432v2
- Date: Tue, 31 Oct 2023 01:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:42:13.579410
- Title: A polar prediction model for learning to represent visual
transformations
- Title(参考訳): 視覚変換を表現する学習のための極性予測モデル
- Authors: Pierre-\'Etienne H. Fiquet, Eero P. Simoncelli
- Abstract要約: 本稿では,自然映像の規則性を利用して正確な予測を行う自己教師付き表現学習フレームワークを提案する。
自然なビデオデータセットをトレーニングすると、従来の動き補償よりも優れた予測性能が得られる。
我々のフレームワークは、視覚システムが時間的予測を単純化する形で感覚入力をどのように表現するかを理解するための、原則化されたフレームワークを提供する。
- 参考スコア(独自算出の注目度): 10.857320773825357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: All organisms make temporal predictions, and their evolutionary fitness level
depends on the accuracy of these predictions. In the context of visual
perception, the motions of both the observer and objects in the scene structure
the dynamics of sensory signals, allowing for partial prediction of future
signals based on past ones. Here, we propose a self-supervised
representation-learning framework that extracts and exploits the regularities
of natural videos to compute accurate predictions. We motivate the polar
architecture by appealing to the Fourier shift theorem and its group-theoretic
generalization, and we optimize its parameters on next-frame prediction.
Through controlled experiments, we demonstrate that this approach can discover
the representation of simple transformation groups acting in data. When trained
on natural video datasets, our framework achieves better prediction performance
than traditional motion compensation and rivals conventional deep networks,
while maintaining interpretability and speed. Furthermore, the polar
computations can be restructured into components resembling normalized simple
and direction-selective complex cell models of primate V1 neurons. Thus, polar
prediction offers a principled framework for understanding how the visual
system represents sensory inputs in a form that simplifies temporal prediction.
- Abstract(参考訳): 全ての生物は時間的予測を行い、その進化的適合度はこれらの予測の精度に依存する。
視覚的知覚の文脈では、シーン内のオブザーバとオブジェクトの両方の動きは感覚信号のダイナミクスを構造化し、過去の信号に基づいて将来の信号の一部を予測することができる。
本稿では,自然映像の正則性を抽出・活用し,正確な予測を行う自己教師付き表現学習フレームワークを提案する。
我々は、フーリエシフト定理とその群論的一般化に訴え、極性アーキテクチャを動機付け、そのパラメータを次のフレーム予測に最適化する。
制御された実験を通じて、このアプローチがデータに作用する単純な変換群の表現を発見できることを実証する。
自然なビデオデータセットでトレーニングすると、従来のモーション補償や従来のディープネットワークよりも優れた予測性能を達成し、解釈性と速度を維持します。
さらに、極性計算は、霊長類V1ニューロンの正常化された単純および方向選択的複合細胞モデルに似たコンポーネントに再構成することができる。
このように極性予測は、視覚システムが時間的予測を単純化する形で感覚入力をどのように表現するかを理解するための原則化された枠組みを提供する。
関連論文リスト
- Towards Generalizable and Interpretable Motion Prediction: A Deep
Variational Bayes Approach [54.429396802848224]
本稿では,分布外ケースに対する頑健な一般化性を有する動き予測のための解釈可能な生成モデルを提案する。
このモデルでは, 長期目的地の空間分布を推定することにより, 目標駆動動作予測を実現する。
動き予測データセットの実験は、適合したモデルが解釈可能で一般化可能であることを検証した。
論文 参考訳(メタデータ) (2024-03-10T04:16:04Z) - Brain-like representational straightening of natural movies in robust
feedforward neural networks [2.8749107965043286]
表現の直線化(Representational straightening)とは、自然映画から撮影された一連のフレームの視覚的特徴表現の曲率を減少させることである。
入力画像中の雑音に対するロバスト性は、フィードフォワードニューラルネットワークにおいて表現的ストレート化をもたらす。
論文 参考訳(メタデータ) (2023-08-26T13:04:36Z) - V1T: large-scale mouse V1 response prediction using a Vision Transformer [1.5703073293718952]
動物間における視覚的・行動的表現の共有を学習するビジョントランスフォーマーに基づく新しいアーキテクチャであるV1Tを紹介する。
マウスの一次視覚野から記録された2つの大きなデータセットを用いて、我々のモデルを評価し、予測性能を12.7%以上向上させた。
論文 参考訳(メタデータ) (2023-02-06T18:58:38Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Fourier-based Video Prediction through Relational Object Motion [28.502280038100167]
ビデオ予測のタスクには, 深い再帰的アーキテクチャが適用されている。
本稿では、周波数領域のアプローチをビデオ予測に用い、異なるアプローチを提案する。
結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに苦しむことはない。
論文 参考訳(メタデータ) (2021-10-12T10:43:05Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Predicting Temporal Sets with Deep Neural Networks [50.53727580527024]
本稿では,時間集合予測のためのディープニューラルネットワークに基づく統合解を提案する。
ユニークな視点は、セットレベルの共起グラフを構築することで要素関係を学ぶことである。
我々は,要素や集合の時間依存性を適応的に学習するアテンションベースのモジュールを設計する。
論文 参考訳(メタデータ) (2020-06-20T03:29:02Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。