論文の概要: Convolutional Tensor-Train LSTM for Spatio-temporal Learning
- arxiv url: http://arxiv.org/abs/2002.09131v5
- Date: Sun, 4 Oct 2020 23:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:16:10.268916
- Title: Convolutional Tensor-Train LSTM for Spatio-temporal Learning
- Title(参考訳): 時空間学習のための畳み込みテンソルトレインLSTM
- Authors: Jiahao Su, Wonmin Byeon, Jean Kossaifi, Furong Huang, Jan Kautz,
Animashree Anandkumar
- Abstract要約: 本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 116.24172387469994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from spatio-temporal data has numerous applications such as
human-behavior analysis, object tracking, video compression, and physics
simulation.However, existing methods still perform poorly on challenging video
tasks such as long-term forecasting. This is because these kinds of challenging
tasks require learning long-term spatio-temporal correlations in the video
sequence. In this paper, we propose a higher-order convolutional LSTM model
that can efficiently learn these correlations, along with a succinct
representations of the history. This is accomplished through a novel tensor
train module that performs prediction by combining convolutional features
across time. To make this feasible in terms of computation and memory
requirements, we propose a novel convolutional tensor-train decomposition of
the higher-order model. This decomposition reduces the model complexity by
jointly approximating a sequence of convolutional kernels asa low-rank
tensor-train factorization. As a result, our model outperforms existing
approaches, but uses only a fraction of parameters, including the baseline
models.Our results achieve state-of-the-art performance in a wide range of
applications and datasets, including the multi-steps video prediction on the
Moving-MNIST-2and KTH action datasets as well as early activity recognition on
the Something-Something V2 dataset.
- Abstract(参考訳): 時空間データからの学習には、人間行動分析、物体追跡、ビデオ圧縮、物理シミュレーションなどの多くの応用があるが、既存の手法は、長期的な予測のような困難なビデオタスクでは、依然として不十分である。
これは、このような困難なタスクは、ビデオシーケンス内の長期時空間相関を学習する必要があるためである。
本稿では,これらの相関関係を,歴史の簡潔な表現とともに効率的に学習できる高次畳み込みLSTMモデルを提案する。
これは、時間にまたがる畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
これを計算とメモリ要件の観点から実現するために,高次モデルの新しい畳み込みテンソル-トレイン分解を提案する。
この分解は、畳み込みカーネルの列を低ランクテンソル-トレイン因子化として共同で近似することにより、モデルの複雑さを低減する。
その結果、我々のモデルは既存のアプローチよりも優れていますが、ベースラインモデルを含む少数のパラメータしか使用していません。我々の結果は、移動MNIST-2およびKTHアクションデータセットのマルチステップビデオ予測や、Something V2データセットの早期アクティビティ認識など、幅広いアプリケーションやデータセットで最先端のパフォーマンスを実現しています。
関連論文リスト
- TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Neural Dynamical Operator: Continuous Spatial-Temporal Model with Gradient-Based and Derivative-Free Optimization Methods [0.0]
本稿では、空間と時間の両方で連続的なニューラルダイナミクス演算子と呼ばれるデータ駆動モデリングフレームワークを提案する。
神経力学演算子の鍵となる特徴は、空間的および時間的離散化の両方に関して分解能不変性である。
提案手法は,ハイブリッド最適化方式により,より長期統計量の予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-11-20T14:31:18Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。
結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T16:45:19Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Contextually Enhanced ES-dRNN with Dynamic Attention for Short-Term Load
Forecasting [1.1602089225841632]
提案手法は,コンテキストトラックとメイントラックという,同時に訓練された2つのトラックから構成される。
RNNアーキテクチャは、階層的な拡張を積み重ねた複数の繰り返し層で構成され、最近提案された注意的再帰細胞を備えている。
このモデルは点予測と予測間隔の両方を生成する。
論文 参考訳(メタデータ) (2022-12-18T07:42:48Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Sparse and Low-Rank High-Order Tensor Regression via Parallel Proximal
Method [6.381138694845438]
高次構造を持つ大規模データに対するスパース・ローランク回帰モデルを提案する。
我々のモデルはテンソル係数の空間性と低ランク性を強制する。
我々のモデルの予測は、ビデオデータセットに意味のある解釈を示す。
論文 参考訳(メタデータ) (2019-11-29T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。