論文の概要: TCTN: A 3D-Temporal Convolutional Transformer Network for Spatiotemporal
Predictive Learning
- arxiv url: http://arxiv.org/abs/2112.01085v1
- Date: Thu, 2 Dec 2021 10:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 16:46:10.478420
- Title: TCTN: A 3D-Temporal Convolutional Transformer Network for Spatiotemporal
Predictive Learning
- Title(参考訳): TCTN:時空間予測学習のための3次元畳み込み変圧器ネットワーク
- Authors: Ziao Yang, Xiangrui Yang and Qifeng Lin
- Abstract要約: 本稿では3次元時間畳み込み変換器 (TCTN) というアルゴリズムを提案する。
提案アルゴリズムは,Transformerの並列機構により,RNNベースの手法に比べて,実装や訓練が容易である。
- 参考スコア(独自算出の注目度): 1.952097552284465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatiotemporal predictive learning is to generate future frames given a
sequence of historical frames. Conventional algorithms are mostly based on
recurrent neural networks (RNNs). However, RNN suffers from heavy computational
burden such as time and long back-propagation process due to the seriality of
recurrent structure. Recently, Transformer-based methods have also been
investigated in the form of encoder-decoder or plain encoder, but the
encoder-decoder form requires too deep networks and the plain encoder is lack
of short-term dependencies. To tackle these problems, we propose an algorithm
named 3D-temporal convolutional transformer (TCTN), where a transformer-based
encoder with temporal convolutional layers is employed to capture short-term
and long-term dependencies. Our proposed algorithm can be easy to implement and
trained much faster compared with RNN-based methods thanks to the parallel
mechanism of Transformer. To validate our algorithm, we conduct experiments on
the MovingMNIST and KTH dataset, and show that TCTN outperforms
state-of-the-art (SOTA) methods in both performance and training speed.
- Abstract(参考訳): 時空間予測学習は、歴史的フレームのシーケンスが与えられた将来のフレームを生成することである。
従来のアルゴリズムは主にリカレントニューラルネットワーク(RNN)に基づいている。
しかし、RNNは繰り返し構造が連続しているため、時間や長いバックプロパゲーションプロセスなどの計算負荷に悩まされる。
近年、トランスフォーマベースの手法もエンコーダ・デコーダやプレーンエンコーダという形で研究されているが、エンコーダ・デコーダの形式には深いネットワークが必要であり、プレーンエンコーダには短期的な依存関係が欠けている。
そこで本研究では, 時間的畳み込み層を有するトランスコーダを用いて, 短期的および長期的依存性を捉える3d-temporal convolutional transformer (tctn) というアルゴリズムを提案する。
提案アルゴリズムは,Transformerの並列機構により,RNNベースの手法に比べて,実装や訓練が容易である。
提案アルゴリズムを検証するため,移動MNISTとKTHデータセットを用いて実験を行い,TCTNが動作速度とトレーニング速度の両方で最先端(SOTA)手法より優れていることを示す。
関連論文リスト
- Transformer-based Video Saliency Prediction with High Temporal Dimension
Decoding [12.595019348741042]
本稿では,高テンポラル次元ネットワークデコーディング(THTDNet)を用いたトランスフォーマに基づくビデオサリエンシ予測手法を提案する。
このアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
論文 参考訳(メタデータ) (2024-01-15T20:09:56Z) - Deep-Unfolding for Next-Generation Transceivers [49.338084953253755]
次世代マルチインプット・マルチアウトプット(MIMO)トランシーバの定義に関する研究が進められている。
無線通信における先進トランシーバーの設計において、しばしば反復アルゴリズムにつながる最適化アプローチは大きな成功を収めた。
ディープニューラルネットワーク(DNN)で反復アルゴリズムを近似するディープラーニングは、計算時間を著しく短縮することができる。
ディープラーニングと反復アルゴリズムの両方の利点を取り入れたディープアンフォールディングが登場し、反復アルゴリズムを階層的な構造に展開している。
論文 参考訳(メタデータ) (2023-05-15T02:13:41Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Frequency-Encoded Deep Learning with Speed-of-Light Dominated Latency [0.0]
本稿では,周波数領域のデータを符号化して行列ベクトル積を単一ショットで計算する乗法的アナログ周波数変換光学ニューラルネットワーク(MAFT-ONN)を提案する。
これは音声や無線信号のような時間波形のアナログ推論に適した最初のハードウェアアクセラレータであり、帯域幅制限スループットと光速制限レイテンシを実現している。
論文 参考訳(メタデータ) (2022-07-08T16:37:13Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - Spike-inspired Rank Coding for Fast and Accurate Recurrent Neural
Networks [5.986408771459261]
生物学的スパイクニューラルネットワーク(SNN)は、その出力の情報を時間的にエンコードすることができるが、人工ニューラルネットワーク(ANN)は従来はそうではない。
ここでは、SNNにインスパイアされたランク符号化(RC)のような時間符号化が、LSTMなどの従来のANNにも適用可能であることを示す。
RCトレーニングは推論中の時間と監視を著しく低減し、精度は最小限に抑えられる。
逐次分類の2つのおもちゃ問題と、最初の入力時間ステップ後にRCモデルが99.19%の精度を達成できる時間符号化MNISTデータセットにおいて、これらを実証する。
論文 参考訳(メタデータ) (2021-10-06T15:51:38Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。