Fugu-MT 論文翻訳(概要): Polar Prediction of Natural Videos

論文の概要: Polar Prediction of Natural Videos

arxiv url: http://arxiv.org/abs/2303.03432v1
Date: Mon, 6 Mar 2023 19:00:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-08 17:41:59.230876
Title: Polar Prediction of Natural Videos
Title（参考訳）: 自然映像の極性予測
Authors: Pierre-\'Etienne H. Fiquet, Eero P. Simoncelli
Abstract要約: 学習した局所的な極座標でビデオフレームを表現するネットワークを構築します。我々は、これらのモデルを自然言語ビデオの次のフレーム予測に基づいてトレーニングする。極性予測器は解釈可能かつ高速でありながら性能が向上することがわかった。
参考スコア（独自算出の注目度）: 6.713564212269253
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Observer motion and continuous deformations of objects and surfaces imbue natural videos with distinct temporal structures, enabling partial prediction of future frames from past ones. Conventional methods first estimate local motion, or optic flow, and then use it to predict future frames by warping or copying content. Here, we explore a more direct methodology, in which each frame is mapped into a learned representation space where the structure of temporal evolution is more readily accessible. Motivated by the geometry of the Fourier shift theorem and its group-theoretic generalization, we formulate a simple architecture that represents video frames in learned local polar coordinates. Specifically, we construct networks in which pairs of convolutional channel coefficients are treated as complex-valued, and are optimized to evolve with slowly varying amplitudes and linearly advancing phases. We train these models on next-frame prediction in natural videos, and compare their performance with that of conventional methods using optic flow as well as predictive neural networks. We find that the polar predictor achieves better performance while remaining interpretable and fast, thereby demonstrating the potential of a flow-free video processing methodology that is trained end-to-end to predict natural video content.
Abstract（参考訳）: 物体や表面のオブザーバ運動と連続的な変形は、異なる時間構造を持つ自然映像を生かし、過去のフレームを部分的に予測することができる。従来の手法では、まず局所的な動き(光の流れ)を推定し、次にコンテンツのウォーピングやコピーによって将来のフレームを予測する。本稿では、各フレームを時間的進化の構造が容易にアクセス可能な学習された表現空間にマッピングする、より直接的な方法論を検討する。フーリエシフト定理の幾何学と群理論の一般化により、学習された局所極座標におけるビデオフレームを表す単純なアーキテクチャを定式化する。具体的には、畳み込みチャネル係数のペアを複素値として扱うネットワークを構築し、ゆっくりと変化する振幅と線形進行位相で進化するように最適化する。これらのモデルを自然ビデオの次のフレーム予測で訓練し,その性能を従来の光学フロー法や予測ニューラルネットワーク法と比較した。極性予測器は、解釈可能かつ高速でありながら優れた性能を達成し、自然な映像コンテンツを予測するためにエンドツーエンドに訓練されたフローフリーなビデオ処理手法の可能性を示す。

関連論文リスト

Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。 MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文参考訳（メタデータ） (2025-03-22T22:13:14Z)
Learning predictable and robust neural representations by straightening image sequences [16.504807843249196]
我々は、ストレートニングを明確に定量化し、促進する自己教師型学習(SSL)の目標を開発する。本研究では、この目的が、スムーズにレンダリングされた合成画像シーケンス上で、ディープフィードフォワードニューラルネットワークをトレーニングする際の効果を実証する。
論文参考訳（メタデータ） (2024-11-04T03:58:09Z)
Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [45.886941596233974]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。提案するフレームワークは、生成アーキテクチャの潜在空間においてL-OGM予測を行う。我々は、リアルタイムに高品質な予測を提供するシングルステップデコーダまたは拡散ベースのバッチデコーダを用いて予測をデコードする。
論文参考訳（メタデータ） (2024-07-30T18:37:59Z)
GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。 GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文参考訳（メタデータ） (2024-05-30T06:47:55Z)
Towards Generalizable and Interpretable Motion Prediction: A Deep Variational Bayes Approach [54.429396802848224]
本稿では,分布外ケースに対する頑健な一般化性を有する動き予測のための解釈可能な生成モデルを提案する。このモデルでは, 長期目的地の空間分布を推定することにより, 目標駆動動作予測を実現する。動き予測データセットの実験は、適合したモデルが解釈可能で一般化可能であることを検証した。
論文参考訳（メタデータ） (2024-03-10T04:16:04Z)
Brain-like representational straightening of natural movies in robust feedforward neural networks [2.8749107965043286]
表現の直線化(Representational straightening)とは、自然映画から撮影された一連のフレームの視覚的特徴表現の曲率を減少させることである。入力画像中の雑音に対するロバスト性は、フィードフォワードニューラルネットワークにおいて表現的ストレート化をもたらす。
論文参考訳（メタデータ） (2023-08-26T13:04:36Z)
LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文参考訳（メタデータ） (2022-10-03T22:04:00Z)
Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文参考訳（メタデータ） (2022-04-05T12:52:45Z)
Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文参考訳（メタデータ） (2021-10-22T04:35:58Z)
Fourier-based Video Prediction through Relational Object Motion [28.502280038100167]
ビデオ予測のタスクには, 深い再帰的アーキテクチャが適用されている。本稿では、周波数領域のアプローチをビデオ予測に用い、異なるアプローチを提案する。結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに苦しむことはない。
論文参考訳（メタデータ） (2021-10-12T10:43:05Z)
Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文参考訳（メタデータ） (2021-05-10T19:48:42Z)
Predicting Temporal Sets with Deep Neural Networks [50.53727580527024]
本稿では,時間集合予測のためのディープニューラルネットワークに基づく統合解を提案する。ユニークな視点は、セットレベルの共起グラフを構築することで要素関係を学ぶことである。我々は,要素や集合の時間依存性を適応的に学習するアテンションベースのモジュールを設計する。
論文参考訳（メタデータ） (2020-06-20T03:29:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。