論文の概要: STAR: Sparse Transformer-based Action Recognition
- arxiv url: http://arxiv.org/abs/2107.07089v1
- Date: Thu, 15 Jul 2021 02:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:12:59.590275
- Title: STAR: Sparse Transformer-based Action Recognition
- Title(参考訳): star: スパーストランスフォーマーベースのアクション認識
- Authors: Feng Shi, Chonghan Lee, Liang Qiu, Yizhou Zhao, Tianyi Shen, Shivran
Muralidhar, Tian Han, Song-Chun Zhu, Vijaykrishnan Narayanan
- Abstract要約: 本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
- 参考スコア(独自算出の注目度): 61.490243467748314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The cognitive system for human action and behavior has evolved into a deep
learning regime, and especially the advent of Graph Convolution Networks has
transformed the field in recent years. However, previous works have mainly
focused on over-parameterized and complex models based on dense graph
convolution networks, resulting in low efficiency in training and inference.
Meanwhile, the Transformer architecture-based model has not yet been well
explored for cognitive application in human action and behavior estimation.
This work proposes a novel skeleton-based human action recognition model with
sparse attention on the spatial dimension and segmented linear attention on the
temporal dimension of data. Our model can also process the variable length of
video clips grouped as a single batch. Experiments show that our model can
achieve comparable performance while utilizing much less trainable parameters
and achieve high speed in training and inference. Experiments show that our
model achieves 4~18x speedup and 1/7~1/15 model size compared with the baseline
models at competitive accuracy.
- Abstract(参考訳): 人間の行動と行動の認知システムは、深層学習体制へと発展し、特にグラフ畳み込みネットワークの出現は近年、この分野に変化をもたらした。
しかし、従来の研究は主にグラフ畳み込みネットワークに基づく過度パラメータ化と複雑なモデルに焦点を当てており、トレーニングと推論の効率は低い。
一方、Transformerアーキテクチャに基づくモデルはまだ人間の行動や行動推定における認知的応用について十分に研究されていない。
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
当社のモデルでは,ビデオクリップの可変長を単一バッチとして処理することも可能です。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
実験の結果,本モデルが4~18倍のスピードアップと1/7~1/15モデルサイズを達成した。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Texture-Based Input Feature Selection for Action Recognition [3.9596068699962323]
本稿では,ドメインの差分を増大させる入力におけるタスク関連コンテンツを決定する新しい手法を提案する。
提案モデルは,HMDB-51データセットとPenn Actionデータセットにおいて,既存の行動認識モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T23:56:31Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Graph-based Normalizing Flow for Human Motion Generation and
Reconstruction [20.454140530081183]
過去の情報と制御信号に基づく長地平線運動系列を合成・再構築する確率生成モデルを提案する。
足踏み解析と骨長解析を併用したモーションキャプチャデータセットを用いたモデル評価を行った。
論文 参考訳(メタデータ) (2021-04-07T09:51:15Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。