論文の概要: Lightweight Transformers for Human Activity Recognition on Mobile
Devices
- arxiv url: http://arxiv.org/abs/2209.11750v1
- Date: Thu, 22 Sep 2022 09:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 13:27:02.415975
- Title: Lightweight Transformers for Human Activity Recognition on Mobile
Devices
- Title(参考訳): モバイルデバイス上での人間活動認識のための軽量トランス
- Authors: Sannara EK, Fran\c{c}ois Portet, Philippe Lalanda
- Abstract要約: モバイルデバイス上でのヒューマンアクティビティ認識(HAR)は、軽量なニューラルモデルで実現可能であることが示されている。
本稿では,HART(Human Activity Recognition Transformer)について述べる。
HARタスクに対するいくつかの公開データセットによる実験により、HARTはFLOPS(FLoating-point Operations Per Second)とパラメータを減らし、現在の最先端結果を上回っていることが示された。
- 参考スコア(独自算出の注目度): 0.5505634045241288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Activity Recognition (HAR) on mobile devices has shown to be achievable
with lightweight neural models learned from data generated by the user's
inertial measurement units (IMUs). Most approaches for instanced-based HAR have
used Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTMs), or a
combination of the two to achieve state-of-the-art results with real-time
performances. Recently, the Transformers architecture in the language
processing domain and then in the vision domain has pushed further the
state-of-the-art over classical architectures. However, such Transformers
architecture is heavyweight in computing resources, which is not well suited
for embedded applications of HAR that can be found in the pervasive computing
domain. In this study, we present Human Activity Recognition Transformer
(HART), a lightweight, sensor-wise transformer architecture that has been
specifically adapted to the domain of the IMUs embedded on mobile devices. Our
experiments on HAR tasks with several publicly available datasets show that
HART uses fewer FLoating-point Operations Per Second (FLOPS) and parameters
while outperforming current state-of-the-art results. Furthermore, we present
evaluations across various architectures on their performances in heterogeneous
environments and show that our models can better generalize on different
sensing devices or on-body positions.
- Abstract(参考訳): モバイルデバイス上のヒューマンアクティビティ認識(HAR)は、ユーザの慣性測定ユニット(IMU)が生成したデータから学習した軽量ニューラルネットワークで実現可能であることが示されている。
例えば、HARのほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory(LSTM)、あるいは2つの組み合わせを使って、最先端の結果とリアルタイムのパフォーマンスを実現している。
近年、言語処理領域とビジョン領域におけるトランスフォーマーアーキテクチャは、古典的アーキテクチャよりも最先端の技術を押し進めている。
しかし、そのようなトランスフォーマーアーキテクチャは計算資源において重厚であり、広範コンピューティング領域で見られるHARの組み込みアプリケーションには適していない。
本研究では,モバイル機器に組込まれているicmの領域に特化してきた,軽量でセンサ指向のトランスフォーマーアーキテクチャであるhuman activity recognition transformer (hart)を提案する。
HARタスクに対するいくつかの公開データセットによる実験により、HARTはFLOPS(FLoating-point Operations Per Second)とパラメータを減らし、現在の最先端結果を上回っていることが示された。
さらに,異種環境における各種アーキテクチャの性能評価を行い,様々なセンシングデバイスや体上位置において,モデルがよりよく一般化できることを示す。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Exploring the Performance and Efficiency of Transformer Models for NLP
on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。
トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。
この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2023-06-20T10:15:01Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Multimodal Generation of Novel Action Appearances for Synthetic-to-Real
Recognition of Activities of Daily Living [25.04517296731092]
外見の変化のようなドメインシフトは、アクティビティ認識モデルの現実的な応用において重要な課題である。
本稿では,既存の活動モダリティから新たなADLの出現を生成するアクティビティドメイン生成フレームワークを提案する。
本フレームワークは,人間のポーズ,体継手のヒートマップ,光フローマップを計算し,元のRGBビデオと併用してソースドメインの本質を学習する。
論文 参考訳(メタデータ) (2022-08-03T08:28:33Z) - Exploring Transformers for Behavioural Biometrics: A Case Study in Gait
Recognition [0.7874708385247353]
本稿ではトランスフォーマーに基づく新しい歩行生体認証システムについて検討し,提案する。
実験フレームワークでは、最先端アーキテクチャ(Vanilla、Informer、Autoformer、Block-Recurrent Transformer、THAT)が検討されている。
代表的な2つの公開データベースwuGAITとOU-ISIRを用いて実験を行った。
論文 参考訳(メタデータ) (2022-06-03T08:08:40Z) - UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。
特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。
我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文 参考訳(メタデータ) (2022-05-24T03:29:54Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-08T11:09:40Z) - Multi-Exit Vision Transformer for Dynamic Inference [88.17413955380262]
視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
論文 参考訳(メタデータ) (2021-06-29T09:01:13Z) - Real-time Human Activity Recognition Using Conditionally Parametrized
Convolutions on Mobile and Wearable Devices [14.260179062012512]
ディープ畳み込みニューラルネットワーク(CNN)は、さまざまなHARデータセットで最先端のパフォーマンスを達成した。
深い傾きの操作の多さは計算コストを増大させ,モバイルおよびウェアラブルセンサを用いたリアルタイムHARには適さない。
本研究では,モバイルおよびウェアラブルデバイス上でのリアルタイムHARのための条件パラメタライズド・コンボリューションを用いた効率的なCNNを提案する。
論文 参考訳(メタデータ) (2020-06-05T07:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。