Fugu-MT 論文翻訳(概要): Lightweight Transformers for Human Activity Recognition on Mobile Devices

論文の概要: Lightweight Transformers for Human Activity Recognition on Mobile Devices

arxiv url: http://arxiv.org/abs/2209.11750v1
Date: Thu, 22 Sep 2022 09:42:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-26 13:27:02.415975
Title: Lightweight Transformers for Human Activity Recognition on Mobile Devices
Title（参考訳）: モバイルデバイス上での人間活動認識のための軽量トランス
Authors: Sannara EK, Fran\c{c}ois Portet, Philippe Lalanda
Abstract要約: モバイルデバイス上でのヒューマンアクティビティ認識(HAR)は、軽量なニューラルモデルで実現可能であることが示されている。本稿では,HART(Human Activity Recognition Transformer)について述べる。 HARタスクに対するいくつかの公開データセットによる実験により、HARTはFLOPS(FLoating-point Operations Per Second)とパラメータを減らし、現在の最先端結果を上回っていることが示された。
参考スコア（独自算出の注目度）: 0.5505634045241288
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human Activity Recognition (HAR) on mobile devices has shown to be achievable with lightweight neural models learned from data generated by the user's inertial measurement units (IMUs). Most approaches for instanced-based HAR have used Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTMs), or a combination of the two to achieve state-of-the-art results with real-time performances. Recently, the Transformers architecture in the language processing domain and then in the vision domain has pushed further the state-of-the-art over classical architectures. However, such Transformers architecture is heavyweight in computing resources, which is not well suited for embedded applications of HAR that can be found in the pervasive computing domain. In this study, we present Human Activity Recognition Transformer (HART), a lightweight, sensor-wise transformer architecture that has been specifically adapted to the domain of the IMUs embedded on mobile devices. Our experiments on HAR tasks with several publicly available datasets show that HART uses fewer FLoating-point Operations Per Second (FLOPS) and parameters while outperforming current state-of-the-art results. Furthermore, we present evaluations across various architectures on their performances in heterogeneous environments and show that our models can better generalize on different sensing devices or on-body positions.
Abstract（参考訳）: モバイルデバイス上のヒューマンアクティビティ認識(HAR)は、ユーザの慣性測定ユニット(IMU)が生成したデータから学習した軽量ニューラルネットワークで実現可能であることが示されている。例えば、HARのほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory(LSTM)、あるいは2つの組み合わせを使って、最先端の結果とリアルタイムのパフォーマンスを実現している。近年、言語処理領域とビジョン領域におけるトランスフォーマーアーキテクチャは、古典的アーキテクチャよりも最先端の技術を押し進めている。しかし、そのようなトランスフォーマーアーキテクチャは計算資源において重厚であり、広範コンピューティング領域で見られるHARの組み込みアプリケーションには適していない。本研究では,モバイル機器に組込まれているicmの領域に特化してきた,軽量でセンサ指向のトランスフォーマーアーキテクチャであるhuman activity recognition transformer (hart)を提案する。 HARタスクに対するいくつかの公開データセットによる実験により、HARTはFLOPS(FLoating-point Operations Per Second)とパラメータを減らし、現在の最先端結果を上回っていることが示された。さらに,異種環境における各種アーキテクチャの性能評価を行い,様々なセンシングデバイスや体上位置において,モデルがよりよく一般化できることを示す。

関連論文リスト

SETransformer: A Hybrid Attention-Based Architecture for Robust Human Activity Recognition [7.291558599547268]
ウェアラブルセンサデータを用いたヒューマンアクティビティ認識(HAR)は,モバイルコンピューティング,ヘルスケア,人間とコンピュータのインタラクションにおいて中心的な課題となっている。本稿では、トランスフォーマーに基づく時間モデルと、チャネルワイド・サスペンション・アンド・エキサイティング(SE)アテンションと、学習可能な時間アテンションプーリング機構を組み合わせたハイブリッドディープニューラルネットワークSETransformerを提案する。我々は、WISDMデータセット上でSETransformerを評価し、LSTM、GRU、BiLSTM、CNNベースラインといった従来のモデルよりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-05-25T23:39:34Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
SimPLR: A Simple and Plain Transformer for Efficient Object Detection and Segmentation [49.65221743520028]
マルチスケールインダクティブバイアスをアテンション機構にシフトさせることで, プレーン検出器SimPLRが動作可能であることを示す。我々はSimPLRとスケールアウェアスを併用した実験を通して、単純なアーキテクチャでありながら、マルチスケールビジョントランスフォーマーの代替品と競合することを発見した。
論文参考訳（メタデータ） (2023-10-09T17:59:26Z)
EventTransAct: A video transformer-based framework for Event-camera based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文参考訳（メタデータ） (2023-08-25T23:51:07Z)
Exploring the Performance and Efficiency of Transformer Models for NLP on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2023-06-20T10:15:01Z)
A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文参考訳（メタデータ） (2023-06-11T23:13:51Z)
Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily Living [25.04517296731092]
外見の変化のようなドメインシフトは、アクティビティ認識モデルの現実的な応用において重要な課題である。本稿では,既存の活動モダリティから新たなADLの出現を生成するアクティビティドメイン生成フレームワークを提案する。本フレームワークは,人間のポーズ,体継手のヒートマップ,光フローマップを計算し,元のRGBビデオと併用してソースドメインの本質を学習する。
論文参考訳（メタデータ） (2022-08-03T08:28:33Z)
Exploring Transformers for Behavioural Biometrics: A Case Study in Gait Recognition [0.7874708385247353]
本稿ではトランスフォーマーに基づく新しい歩行生体認証システムについて検討し,提案する。実験フレームワークでは、最先端アーキテクチャ(Vanilla、Informer、Autoformer、Block-Recurrent Transformer、THAT)が検討されている。代表的な2つの公開データベースwuGAITとOU-ISIRを用いて実験を行った。
論文参考訳（メタデータ） (2022-06-03T08:08:40Z)
UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文参考訳（メタデータ） (2022-05-24T03:29:54Z)
Improving Sample Efficiency of Value Based Models Using Attention and Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文参考訳（メタデータ） (2022-02-01T19:03:03Z)
UniNet: Unified Architecture Search with Convolution, Transformer, and MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文参考訳（メタデータ） (2021-10-08T11:09:40Z)
Multi-Exit Vision Transformer for Dynamic Inference [88.17413955380262]
視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
論文参考訳（メタデータ） (2021-06-29T09:01:13Z)
Real-time Human Activity Recognition Using Conditionally Parametrized Convolutions on Mobile and Wearable Devices [14.260179062012512]
ディープ畳み込みニューラルネットワーク(CNN)は、さまざまなHARデータセットで最先端のパフォーマンスを達成した。深い傾きの操作の多さは計算コストを増大させ,モバイルおよびウェアラブルセンサを用いたリアルタイムHARには適さない。本研究では,モバイルおよびウェアラブルデバイス上でのリアルタイムHARのための条件パラメタライズド・コンボリューションを用いた効率的なCNNを提案する。
論文参考訳（メタデータ） (2020-06-05T07:06:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。