論文の概要: TCTN: A 3D-Temporal Convolutional Transformer Network for Spatiotemporal
Predictive Learning
- arxiv url: http://arxiv.org/abs/2112.01085v1
- Date: Thu, 2 Dec 2021 10:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 16:46:10.478420
- Title: TCTN: A 3D-Temporal Convolutional Transformer Network for Spatiotemporal
Predictive Learning
- Title(参考訳): TCTN:時空間予測学習のための3次元畳み込み変圧器ネットワーク
- Authors: Ziao Yang, Xiangrui Yang and Qifeng Lin
- Abstract要約: 本稿では3次元時間畳み込み変換器 (TCTN) というアルゴリズムを提案する。
提案アルゴリズムは,Transformerの並列機構により,RNNベースの手法に比べて,実装や訓練が容易である。
- 参考スコア(独自算出の注目度): 1.952097552284465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatiotemporal predictive learning is to generate future frames given a
sequence of historical frames. Conventional algorithms are mostly based on
recurrent neural networks (RNNs). However, RNN suffers from heavy computational
burden such as time and long back-propagation process due to the seriality of
recurrent structure. Recently, Transformer-based methods have also been
investigated in the form of encoder-decoder or plain encoder, but the
encoder-decoder form requires too deep networks and the plain encoder is lack
of short-term dependencies. To tackle these problems, we propose an algorithm
named 3D-temporal convolutional transformer (TCTN), where a transformer-based
encoder with temporal convolutional layers is employed to capture short-term
and long-term dependencies. Our proposed algorithm can be easy to implement and
trained much faster compared with RNN-based methods thanks to the parallel
mechanism of Transformer. To validate our algorithm, we conduct experiments on
the MovingMNIST and KTH dataset, and show that TCTN outperforms
state-of-the-art (SOTA) methods in both performance and training speed.
- Abstract(参考訳): 時空間予測学習は、歴史的フレームのシーケンスが与えられた将来のフレームを生成することである。
従来のアルゴリズムは主にリカレントニューラルネットワーク(RNN)に基づいている。
しかし、RNNは繰り返し構造が連続しているため、時間や長いバックプロパゲーションプロセスなどの計算負荷に悩まされる。
近年、トランスフォーマベースの手法もエンコーダ・デコーダやプレーンエンコーダという形で研究されているが、エンコーダ・デコーダの形式には深いネットワークが必要であり、プレーンエンコーダには短期的な依存関係が欠けている。
そこで本研究では, 時間的畳み込み層を有するトランスコーダを用いて, 短期的および長期的依存性を捉える3d-temporal convolutional transformer (tctn) というアルゴリズムを提案する。
提案アルゴリズムは,Transformerの並列機構により,RNNベースの手法に比べて,実装や訓練が容易である。
提案アルゴリズムを検証するため,移動MNISTとKTHデータセットを用いて実験を行い,TCTNが動作速度とトレーニング速度の両方で最先端(SOTA)手法より優れていることを示す。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Transformer-based Video Saliency Prediction with High Temporal Dimension
Decoding [12.595019348741042]
本稿では,高テンポラル次元ネットワークデコーディング(THTDNet)を用いたトランスフォーマに基づくビデオサリエンシ予測手法を提案する。
このアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
論文 参考訳(メタデータ) (2024-01-15T20:09:56Z) - Deep-Unfolding for Next-Generation Transceivers [49.338084953253755]
次世代マルチインプット・マルチアウトプット(MIMO)トランシーバの定義に関する研究が進められている。
無線通信における先進トランシーバーの設計において、しばしば反復アルゴリズムにつながる最適化アプローチは大きな成功を収めた。
ディープニューラルネットワーク(DNN)で反復アルゴリズムを近似するディープラーニングは、計算時間を著しく短縮することができる。
ディープラーニングと反復アルゴリズムの両方の利点を取り入れたディープアンフォールディングが登場し、反復アルゴリズムを階層的な構造に展開している。
論文 参考訳(メタデータ) (2023-05-15T02:13:41Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - Spike-inspired Rank Coding for Fast and Accurate Recurrent Neural
Networks [5.986408771459261]
生物学的スパイクニューラルネットワーク(SNN)は、その出力の情報を時間的にエンコードすることができるが、人工ニューラルネットワーク(ANN)は従来はそうではない。
ここでは、SNNにインスパイアされたランク符号化(RC)のような時間符号化が、LSTMなどの従来のANNにも適用可能であることを示す。
RCトレーニングは推論中の時間と監視を著しく低減し、精度は最小限に抑えられる。
逐次分類の2つのおもちゃ問題と、最初の入力時間ステップ後にRCモデルが99.19%の精度を達成できる時間符号化MNISTデータセットにおいて、これらを実証する。
論文 参考訳(メタデータ) (2021-10-06T15:51:38Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。