論文の概要: STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing
- arxiv url: http://arxiv.org/abs/2411.10198v1
- Date: Fri, 15 Nov 2024 13:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:08.191790
- Title: STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing
- Title(参考訳): STLight:時空間共同処理による効率的な予測学習のための完全畳み込みアプローチ
- Authors: Andrea Alfarano, Alberto Alfarano, Linda Friso, Andrea Bacciu, Irene Amerini, Fabrizio Silvestri,
- Abstract要約: チャネルワイドおよび深度ワイドの畳み込みを学習可能な層としてのみ依存する,S時間学習のための新しい方法STLightを提案する。
STLightは、空間次元と時間次元を並べ替えることで、従来の畳み込みアプローチの限界を克服する。
本アーキテクチャは,データセットや設定のSTLベンチマーク上での最先端性能を実現するとともに,パラメータや計算FLOPの計算効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 6.872340834265972
- License:
- Abstract: Spatio-Temporal predictive Learning is a self-supervised learning paradigm that enables models to identify spatial and temporal patterns by predicting future frames based on past frames. Traditional methods, which use recurrent neural networks to capture temporal patterns, have proven their effectiveness but come with high system complexity and computational demand. Convolutions could offer a more efficient alternative but are limited by their characteristic of treating all previous frames equally, resulting in poor temporal characterization, and by their local receptive field, limiting the capacity to capture distant correlations among frames. In this paper, we propose STLight, a novel method for spatio-temporal learning that relies solely on channel-wise and depth-wise convolutions as learnable layers. STLight overcomes the limitations of traditional convolutional approaches by rearranging spatial and temporal dimensions together, using a single convolution to mix both types of features into a comprehensive spatio-temporal patch representation. This representation is then processed in a purely convolutional framework, capable of focusing simultaneously on the interaction among near and distant patches, and subsequently allowing for efficient reconstruction of the predicted frames. Our architecture achieves state-of-the-art performance on STL benchmarks across different datasets and settings, while significantly improving computational efficiency in terms of parameters and computational FLOPs. The code is publicly available
- Abstract(参考訳): Spatio-Temporal predictive Learningは、モデルが過去のフレームに基づいて将来のフレームを予測することによって、空間的および時間的パターンを識別できる自己教師型学習パラダイムである。
時間的パターンを捉えるためにリカレントニューラルネットワークを使用する従来の手法は、その効果を証明しているが、システムの複雑さと計算要求が高い。
畳み込みはより効率的な代替手段を提供するが、以前の全てのフレームを等しく扱うという特徴によって制限され、結果として時間的特徴が乏しく、またその局所受容領域によってフレーム間の遠い相関を捉える能力が制限される。
本稿では,学習可能な層としてチャネル・ワイド・ディープ・ワイド・コンボリューションのみに依存する時空間学習の新しい手法STLightを提案する。
STLightは、空間次元と時間次元を並べ替え、両方のタイプの特徴を包括的な時空間パッチ表現に混ぜる単一の畳み込みを用いて、伝統的な畳み込みアプローチの限界を克服する。
この表現は純粋に畳み込みの枠組みで処理され、近距離と遠距離のパッチ間の相互作用に同時に焦点を合わせ、その後予測されたフレームの効率的な再構築を可能にする。
我々のアーキテクチャは、異なるデータセットや設定のSTLベンチマークの最先端性能を実現し、パラメータや計算FLOPの計算効率を大幅に改善する。
コードは公開されています
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - LaT-PFN: A Joint Embedding Predictive Architecture for In-context Time-series Forecasting [0.0]
我々は,ゼロショット予測を可能にする強力な埋め込み空間を持つ基本時系列モデルであるLatntTimePFNを紹介する。
我々は、PFNとJEPA(Joint Embedding Predictive Architecture)フレームワークの新たな統合を利用して、潜在空間におけるコンテキスト内学習を行う。
論文 参考訳(メタデータ) (2024-05-16T13:44:56Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - TIDE: Temporally Incremental Disparity Estimation via Pattern Flow in
Structured Light System [17.53719804060679]
TIDE-Netはモノカメラ構造光システムにおける差分計算の学習手法である。
得られた画像列に投影されたパターン(パターンフロー)の変形を利用して時間情報をモデル化する。
入力フレーム毎に、パターンフローに歪んだ相関ボリューム(現在のフレームから)と不均一(以前のフレームから)を融合する。
論文 参考訳(メタデータ) (2023-10-13T07:55:33Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。