論文の概要: NAC-TCN: Temporal Convolutional Networks with Causal Dilated
Neighborhood Attention for Emotion Understanding
- arxiv url: http://arxiv.org/abs/2312.07507v2
- Date: Sat, 6 Jan 2024 05:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:57:34.951273
- Title: NAC-TCN: Temporal Convolutional Networks with Causal Dilated
Neighborhood Attention for Emotion Understanding
- Title(参考訳): NAC-TCN:感情理解のための因果拡散近傍注意を伴う時間的畳み込みネットワーク
- Authors: Alexander Mehta and William Yang
- Abstract要約: 畳み込みTCN(NAC-TCN)を用いた近傍注意法を提案する。
これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。
我々のモデルは、標準的な感情認識データセットに少ないパラメータを必要としながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 60.74434735079253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the task of emotion recognition from videos, a key improvement has been to
focus on emotions over time rather than a single frame. There are many
architectures to address this task such as GRUs, LSTMs, Self-Attention,
Transformers, and Temporal Convolutional Networks (TCNs). However, these
methods suffer from high memory usage, large amounts of operations, or poor
gradients. We propose a method known as Neighborhood Attention with
Convolutions TCN (NAC-TCN) which incorporates the benefits of attention and
Temporal Convolutional Networks while ensuring that causal relationships are
understood which results in a reduction in computation and memory cost. We
accomplish this by introducing a causal version of Dilated Neighborhood
Attention while incorporating it with convolutions. Our model achieves
comparable, better, or state-of-the-art performance over TCNs, TCAN, LSTMs, and
GRUs while requiring fewer parameters on standard emotion recognition datasets.
We publish our code online for easy reproducibility and use in other projects.
- Abstract(参考訳): ビデオからの感情認識のタスクにおいて、重要な改善は、単一のフレームではなく、時間とともに感情に焦点を当てることである。
gru, lstms, self-attention, transformers, and temporal convolutional networks (tcns) など,このタスクに対処するためのアーキテクチャが数多く存在する。
しかし、これらの手法は高いメモリ使用量、大量の操作、あるいは低い勾配に悩まされる。
本稿では,注意と時間的畳み込みネットワークの利点を取り入れつつ,因果関係が理解され,結果として計算コストとメモリコストが低減する畳み込みtcn(nac-tcn)と呼ばれる手法を提案する。
これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。
我々のモデルは、標準感情認識データセットのパラメータを少なくしながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。
他のプロジェクトで簡単に再現できるようにコードをオンラインで公開しています。
関連論文リスト
- Adaptive Spiking Neural Networks with Hybrid Coding [0.0]
スパイテンポラルニューラルネットワーク(SNN)は、ニューラルネットワークよりもエネルギー効率が高く効果的なニューラルネットワークである
従来のSNNは、異なる時間ステップで入力データを処理する際に同じニューロンを使用し、時間情報を効果的に統合し活用する能力を制限する。
本稿では,学習に必要な時間を短縮するだけでなく,ネットワーク全体の性能を向上させるためのハイブリッド符号化手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T13:58:35Z) - Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics [2.9578022754506605]
骨格に基づく行動認識では、グラフ畳み込みネットワーク(GCN)はその複雑さと高エネルギー消費のために制限に直面している。
本稿では、骨格配列の時間次元をスパイキング時間ステップとして活用するSignal-SGN(Spiking Graph Convolutional Network)を提案する。
実験により,提案モデルが既存のSNN法を精度で上回るだけでなく,学習時の計算記憶コストも低減できることがわかった。
論文 参考訳(メタデータ) (2024-08-03T07:47:16Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - IMDeception: Grouped Information Distilling Super-Resolution Network [7.6146285961466]
SISR(Single-Image-Super-Resolution)は、ディープラーニング手法の最近の進歩の恩恵を受けている古典的なコンピュータビジョン問題である。
本稿では,機能集約のためのIICモジュールの代替として,GPRM(Global Progressive Refinement Module)を提案する。
また,1秒あたりのパラメータ数や浮動小数点演算量(FLOPS)をさらに削減するために,GIDB(Grouped Information Distilling Blocks)を提案する。
実験の結果,提案したネットワークは,パラメータ数やFLOPSが限られているにもかかわらず,最先端モデルと同等に動作していることがわかった。
論文 参考訳(メタデータ) (2022-04-25T06:43:45Z) - AEGNN: Asynchronous Event-based Graph Neural Networks [54.528926463775946]
イベントベースのグラフニューラルネットワークは、標準のGNNを一般化して、イベントを"進化的"時間グラフとして処理する。
AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。
論文 参考訳(メタデータ) (2022-03-31T16:21:12Z) - Spike-inspired Rank Coding for Fast and Accurate Recurrent Neural
Networks [5.986408771459261]
生物学的スパイクニューラルネットワーク(SNN)は、その出力の情報を時間的にエンコードすることができるが、人工ニューラルネットワーク(ANN)は従来はそうではない。
ここでは、SNNにインスパイアされたランク符号化(RC)のような時間符号化が、LSTMなどの従来のANNにも適用可能であることを示す。
RCトレーニングは推論中の時間と監視を著しく低減し、精度は最小限に抑えられる。
逐次分類の2つのおもちゃ問題と、最初の入力時間ステップ後にRCモデルが99.19%の精度を達成できる時間符号化MNISTデータセットにおいて、これらを実証する。
論文 参考訳(メタデータ) (2021-10-06T15:51:38Z) - Neural network relief: a pruning algorithm based on neural activity [47.57448823030151]
重要でない接続を非活性化する簡易な重要スコア計量を提案する。
MNIST上でのLeNetアーキテクチャの性能に匹敵する性能を実現する。
このアルゴリズムは、現在のハードウェアとソフトウェアの実装を考えるとき、FLOPを最小化するように設計されていない。
論文 参考訳(メタデータ) (2021-09-22T15:33:49Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。