論文の概要: TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals
- arxiv url: http://arxiv.org/abs/2404.09474v2
- Date: Tue, 14 May 2024 13:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 18:42:17.844237
- Title: TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals
- Title(参考訳): TCCT-Net:行動特徴信号を用いた高速かつ効率的なエンゲージメント推定のための2ストリームネットワークアーキテクチャ
- Authors: Alexander Vedernikov, Puneet Kumar, Haoyu Chen, Tapio Seppanen, Xiaobai Li,
- Abstract要約: 本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
- 参考スコア(独自算出の注目度): 58.865901821451295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engagement analysis finds various applications in healthcare, education, advertisement, services. Deep Neural Networks, used for analysis, possess complex architecture and need large amounts of input data, computational power, inference time. These constraints challenge embedding systems into devices for real-time use. To address these limitations, we present a novel two-stream feature fusion "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) architecture. To better learn the meaningful patterns in the temporal-spatial domain, we design a "CT" stream that integrates a hybrid convolutional-transformer. In parallel, to efficiently extract rich patterns from the temporal-frequency domain and boost processing speed, we introduce a "TC" stream that uses Continuous Wavelet Transform (CWT) to represent information in a 2D tensor form. Evaluated on the EngageNet dataset, the proposed method outperforms existing baselines, utilizing only two behavioral features (head pose rotations) compared to the 98 used in baseline models. Furthermore, comparative analysis shows TCCT-Net's architecture offers an order-of-magnitude improvement in inference speed compared to state-of-the-art image-based Recurrent Neural Network (RNN) methods. The code will be released at https://github.com/vedernikovphoto/TCCT_Net.
- Abstract(参考訳): エンゲージメント分析は、医療、教育、広告、サービスに様々な応用を見出す。
分析に使用されるディープニューラルネットワークは複雑なアーキテクチャを持ち、大量の入力データ、計算能力、推論時間を必要とする。
これらの制約は、リアルタイム使用のためのデバイスへの組み込みシステムに挑戦する。
これらの制約に対処するために、新しい2ストリーム機能融合である"Tensor-Convolution and Convolution-Transformer Network"(TCCT-Net)アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出し、処理速度を向上するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する"TC"ストリームを導入する。
EngageNetデータセットに基づいて評価し、提案手法は既存のベースラインよりも優れており、ベースラインモデルで使用される98と比較して2つの挙動特徴(頭部の回転)しか利用していない。
さらに、TCCT-Netのアーキテクチャは、最先端の画像ベースリカレントニューラルネットワーク(RNN)手法と比較して、推論速度のオーダー・オブ・マグニチュード改善を提供する。
コードはhttps://github.com/vedernikovphoto/TCCT_Net.comで公開される。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Wavelet-Inspired Multiscale Graph Convolutional Recurrent Network for
Traffic Forecasting [0.0]
本稿では,マルチスケール解析(MSA)法とディープラーニング(DL)法を組み合わせたグラフ・コンパス・リカレント・ネットワーク(WavGCRN)を提案する。
提案手法は,現実のトラフィックデータセット上での解釈可能性,強力な学習能力,および競合予測性能を提供する。
論文 参考訳(メタデータ) (2024-01-11T16:55:48Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Graph-based Multi-ODE Neural Networks for Spatio-Temporal Traffic
Forecasting [8.832864937330722]
長距離交通予測は、交通ネットワークで観測される複雑な時間的相関のため、依然として困難な課題である。
本稿では,GRAM-ODE(Graph-based Multi-ODE Neural Networks)と呼ばれるアーキテクチャを提案する。
実世界の6つのデータセットを用いて行った大規模な実験は、最先端のベースラインと比較して、GRAM-ODEの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T02:10:42Z) - MACCIF-TDNN: Multi aspect aggregation of channel and context
interdependence features in TDNN-based speaker verification [5.28889161958623]
時間遅延ニューラルネットワーク(TDNN)に基づくマルチアスペクトからチャネルとコンテキストの相互依存性を集約する新しいネットワークアーキテクチャを提案する。
提案したMACCIF-TDNNアーキテクチャは、VoxCeleb1テストセット上で最先端のTDNNベースのシステムよりも優れている。
論文 参考訳(メタデータ) (2021-07-07T09:43:42Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Spatio-temporal Modeling for Large-scale Vehicular Networks Using Graph
Convolutional Networks [110.80088437391379]
SMARTと呼ばれるグラフベースのフレームワークが提案され、大規模な地理的領域にわたるV2I通信遅延の統計をモデル化し、追跡する。
深層Q-networksアルゴリズムと統合したグラフ畳み込みネットワークを用いたグラフ再構築型手法を開発する。
その結果,提案手法は,モデル化の精度と効率と,大規模車両ネットワークにおける遅延性能を有意に向上させることが示された。
論文 参考訳(メタデータ) (2021-03-13T06:56:29Z) - Densely Connected Recurrent Residual (Dense R2UNet) Convolutional Neural
Network for Segmentation of Lung CT Images [0.342658286826597]
本稿では,U-Netモデルアーキテクチャに基づくリカレントCNN,Residual Network,Dense Convolutional Networkの合成について述べる。
ベンチマークLung Lesionデータセットで検証したモデルでは、同等のモデルよりもセグメンテーションタスクのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2021-02-01T06:34:10Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。