論文の概要: Lightweight Transformers for Human Activity Recognition on Mobile
Devices
- arxiv url: http://arxiv.org/abs/2209.11750v1
- Date: Thu, 22 Sep 2022 09:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-26 13:27:02.415975
- Title: Lightweight Transformers for Human Activity Recognition on Mobile
Devices
- Title(参考訳): モバイルデバイス上での人間活動認識のための軽量トランス
- Authors: Sannara EK, Fran\c{c}ois Portet, Philippe Lalanda
- Abstract要約: モバイルデバイス上でのヒューマンアクティビティ認識(HAR)は、軽量なニューラルモデルで実現可能であることが示されている。
本稿では,HART(Human Activity Recognition Transformer)について述べる。
HARタスクに対するいくつかの公開データセットによる実験により、HARTはFLOPS(FLoating-point Operations Per Second)とパラメータを減らし、現在の最先端結果を上回っていることが示された。
- 参考スコア(独自算出の注目度): 0.5505634045241288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Activity Recognition (HAR) on mobile devices has shown to be achievable
with lightweight neural models learned from data generated by the user's
inertial measurement units (IMUs). Most approaches for instanced-based HAR have
used Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTMs), or a
combination of the two to achieve state-of-the-art results with real-time
performances. Recently, the Transformers architecture in the language
processing domain and then in the vision domain has pushed further the
state-of-the-art over classical architectures. However, such Transformers
architecture is heavyweight in computing resources, which is not well suited
for embedded applications of HAR that can be found in the pervasive computing
domain. In this study, we present Human Activity Recognition Transformer
(HART), a lightweight, sensor-wise transformer architecture that has been
specifically adapted to the domain of the IMUs embedded on mobile devices. Our
experiments on HAR tasks with several publicly available datasets show that
HART uses fewer FLoating-point Operations Per Second (FLOPS) and parameters
while outperforming current state-of-the-art results. Furthermore, we present
evaluations across various architectures on their performances in heterogeneous
environments and show that our models can better generalize on different
sensing devices or on-body positions.
- Abstract(参考訳): モバイルデバイス上のヒューマンアクティビティ認識(HAR)は、ユーザの慣性測定ユニット(IMU)が生成したデータから学習した軽量ニューラルネットワークで実現可能であることが示されている。
例えば、HARのほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory(LSTM)、あるいは2つの組み合わせを使って、最先端の結果とリアルタイムのパフォーマンスを実現している。
近年、言語処理領域とビジョン領域におけるトランスフォーマーアーキテクチャは、古典的アーキテクチャよりも最先端の技術を押し進めている。
しかし、そのようなトランスフォーマーアーキテクチャは計算資源において重厚であり、広範コンピューティング領域で見られるHARの組み込みアプリケーションには適していない。
本研究では,モバイル機器に組込まれているicmの領域に特化してきた,軽量でセンサ指向のトランスフォーマーアーキテクチャであるhuman activity recognition transformer (hart)を提案する。
HARタスクに対するいくつかの公開データセットによる実験により、HARTはFLOPS(FLoating-point Operations Per Second)とパラメータを減らし、現在の最先端結果を上回っていることが示された。
さらに,異種環境における各種アーキテクチャの性能評価を行い,様々なセンシングデバイスや体上位置において,モデルがよりよく一般化できることを示す。
関連論文リスト
- Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Set Transformer Architectures and Synthetic Data Generation for Flow-Guided Nanoscale Localization [13.521075124606973]
Flow-guided Localization (FGL) は、診断上の関心事を含む人体内の空間領域の同定を可能にする。
既存のFGLソリューションは、固定トポロジや手作りの機能を備えたグラフモデルに依存しており、解剖学的変数への適応性を制限し、スケーラビリティを妨げている。
本定式化は,ナノデバイスにおける循環時間レポートを非順序集合として扱い,空間的先行時間に依存することなく,置換不変な可変長入力処理を可能にする。
論文 参考訳(メタデータ) (2025-08-22T08:22:25Z) - SETransformer: A Hybrid Attention-Based Architecture for Robust Human Activity Recognition [7.291558599547268]
ウェアラブルセンサデータを用いたヒューマンアクティビティ認識(HAR)は,モバイルコンピューティング,ヘルスケア,人間とコンピュータのインタラクションにおいて中心的な課題となっている。
本稿では、トランスフォーマーに基づく時間モデルと、チャネルワイド・サスペンション・アンド・エキサイティング(SE)アテンションと、学習可能な時間アテンションプーリング機構を組み合わせたハイブリッドディープニューラルネットワークSETransformerを提案する。
我々は、WISDMデータセット上でSETransformerを評価し、LSTM、GRU、BiLSTM、CNNベースラインといった従来のモデルよりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-05-25T23:39:34Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Transformer-Based Approaches for Sensor-Based Human Activity Recognition: Opportunities and Challenges [0.5983301154764783]
トランスフォーマーは自然言語処理とコンピュータビジョンに優れており、センサーに基づくヒューマンアクティビティ認識(HAR)への道を開いた。
従来の研究では、トランスフォーマーは豊富なデータを利用したり、計算集約的な最適化アルゴリズムを使用したりした場合に、排他的よりも優れていることが示されていた。
しかし、これらのシナリオは、この分野のデータ不足と、リソース制約されたデバイスでのトレーニングと推論を頻繁に行う必要があるため、センサーベースのHARでは実現できない。
論文 参考訳(メタデータ) (2024-10-17T14:39:55Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - SimPLR: A Simple and Plain Transformer for Efficient Object Detection and Segmentation [49.65221743520028]
マルチスケールインダクティブバイアスをアテンション機構にシフトさせることで, プレーン検出器SimPLRが動作可能であることを示す。
我々はSimPLRとスケールアウェアスを併用した実験を通して、単純なアーキテクチャでありながら、マルチスケールビジョントランスフォーマーの代替品と競合することを発見した。
論文 参考訳(メタデータ) (2023-10-09T17:59:26Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Exploring the Performance and Efficiency of Transformer Models for NLP
on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。
トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。
この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2023-06-20T10:15:01Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Multimodal Generation of Novel Action Appearances for Synthetic-to-Real
Recognition of Activities of Daily Living [25.04517296731092]
外見の変化のようなドメインシフトは、アクティビティ認識モデルの現実的な応用において重要な課題である。
本稿では,既存の活動モダリティから新たなADLの出現を生成するアクティビティドメイン生成フレームワークを提案する。
本フレームワークは,人間のポーズ,体継手のヒートマップ,光フローマップを計算し,元のRGBビデオと併用してソースドメインの本質を学習する。
論文 参考訳(メタデータ) (2022-08-03T08:28:33Z) - Exploring Transformers for Behavioural Biometrics: A Case Study in Gait
Recognition [0.7874708385247353]
本稿ではトランスフォーマーに基づく新しい歩行生体認証システムについて検討し,提案する。
実験フレームワークでは、最先端アーキテクチャ(Vanilla、Informer、Autoformer、Block-Recurrent Transformer、THAT)が検討されている。
代表的な2つの公開データベースwuGAITとOU-ISIRを用いて実験を行った。
論文 参考訳(メタデータ) (2022-06-03T08:08:40Z) - UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。
特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。
我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文 参考訳(メタデータ) (2022-05-24T03:29:54Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-08T11:09:40Z) - Multi-Exit Vision Transformer for Dynamic Inference [88.17413955380262]
視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
論文 参考訳(メタデータ) (2021-06-29T09:01:13Z) - Rethinking Architecture Design for Tackling Data Heterogeneity in
Federated Learning [53.73083199055093]
注意に基づくアーキテクチャ(例えばTransformers)は、分散シフトに対してかなり堅牢であることを示す。
我々の実験は、畳み込みネットワークをトランスフォーマーに置き換えることによって、過去のデバイスを壊滅的に忘れることを大幅に減らせることを示した。
論文 参考訳(メタデータ) (2021-06-10T21:04:18Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Description of Structural Biases and Associated Data in Sensor-Rich
Environments [6.548580592686077]
センサが豊富な環境下での活動認識を研究する。
帰納バイアスの問題とそのデータ収集プロセスへの影響に対処します。
本稿では,センサデータをレイヤに構成するメタモデリングプロセスを提案する。
論文 参考訳(メタデータ) (2021-04-11T00:26:59Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Real-time Human Activity Recognition Using Conditionally Parametrized
Convolutions on Mobile and Wearable Devices [14.260179062012512]
ディープ畳み込みニューラルネットワーク(CNN)は、さまざまなHARデータセットで最先端のパフォーマンスを達成した。
深い傾きの操作の多さは計算コストを増大させ,モバイルおよびウェアラブルセンサを用いたリアルタイムHARには適さない。
本研究では,モバイルおよびウェアラブルデバイス上でのリアルタイムHARのための条件パラメタライズド・コンボリューションを用いた効率的なCNNを提案する。
論文 参考訳(メタデータ) (2020-06-05T07:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。