論文の概要: Transformer-based Models to Deal with Heterogeneous Environments in Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2209.11750v2
- Date: Sat, 23 Aug 2025 20:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:44.909003
- Title: Transformer-based Models to Deal with Heterogeneous Environments in Human Activity Recognition
- Title(参考訳): トランスフォーマーを用いた人間行動認識における異種環境対応モデルの構築
- Authors: Sannara EK, François Portet, Philippe Lalanda,
- Abstract要約: モバイルデバイス上でのヒューマンアクティビティ認識(HAR)は、デバイスの慣性測定ユニットから収集されたデータに基づいてトレーニングされたニューラルネットワークを使用して可能であることが実証されている。
これらのモデルでは、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)、Transformer(トランスフォーマー)、あるいはこれらを組み合わせて、最先端の結果とリアルタイムのパフォーマンスを実現している。
本稿では、機械学習アプリケーションにおけるデータ不均一性の問題と、それが広範に展開することを妨げる方法について述べる。
我々はHARTとMobileHART for Human Activity Recognition Transformerという2つのセンサワイドトランスアーキテクチャのコードを提案し,公開する。
- 参考スコア(独自算出の注目度): 2.8381580557475963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Activity Recognition (HAR) on mobile devices has been demonstrated to be possible using neural models trained on data collected from the device's inertial measurement units. These models have used Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTMs), Transformers or a combination of these to achieve state-of-the-art results with real-time performance. However, these approaches have not been extensively evaluated in real-world situations where the input data may be different from the training data. This paper highlights the issue of data heterogeneity in machine learning applications and how it can hinder their deployment in pervasive settings. To address this problem, we propose and publicly release the code of two sensor-wise Transformer architectures called HART and MobileHART for Human Activity Recognition Transformer. Our experiments on several publicly available datasets show that these HART architectures outperform previous architectures with fewer floating point operations and parameters than conventional Transformers. The results also show they are more robust to changes in mobile position or device brand and hence better suited for the heterogeneous environments encountered in real-life settings. Finally, the source code has been made publicly available.
- Abstract(参考訳): モバイルデバイス上でのヒューマンアクティビティ認識(HAR)は、デバイスの慣性測定ユニットから収集されたデータに基づいてトレーニングされたニューラルネットワークを使用して可能であることが実証されている。
これらのモデルでは、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)、Transformer(トランスフォーマー)、あるいはこれらを組み合わせて、最先端の結果とリアルタイムのパフォーマンスを実現している。
しかし、これらの手法は、入力データがトレーニングデータと異なる可能性がある実世界の状況では、広く評価されていない。
本稿では、機械学習アプリケーションにおけるデータ不均一性の問題と、広範に展開することを妨げる方法について述べる。
この問題を解決するために,HART と MobileHART for Human Activity Recognition Transformer という2つのセンサワイドトランスフォーマーアーキテクチャのコードを提案する。
これらのHARTアーキテクチャは従来のTransformerよりも浮動小数点演算やパラメータが少なく、従来のアーキテクチャよりも優れていることを示す。
結果は、モバイルの位置やデバイスブランドの変化に対して堅牢であり、したがって実生活で遭遇する異種環境に適していることも示している。
最後に、ソースコードが公開されている。
関連論文リスト
- SETransformer: A Hybrid Attention-Based Architecture for Robust Human Activity Recognition [7.291558599547268]
ウェアラブルセンサデータを用いたヒューマンアクティビティ認識(HAR)は,モバイルコンピューティング,ヘルスケア,人間とコンピュータのインタラクションにおいて中心的な課題となっている。
本稿では、トランスフォーマーに基づく時間モデルと、チャネルワイド・サスペンション・アンド・エキサイティング(SE)アテンションと、学習可能な時間アテンションプーリング機構を組み合わせたハイブリッドディープニューラルネットワークSETransformerを提案する。
我々は、WISDMデータセット上でSETransformerを評価し、LSTM、GRU、BiLSTM、CNNベースラインといった従来のモデルよりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-05-25T23:39:34Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - SimPLR: A Simple and Plain Transformer for Efficient Object Detection and Segmentation [49.65221743520028]
マルチスケールインダクティブバイアスをアテンション機構にシフトさせることで, プレーン検出器SimPLRが動作可能であることを示す。
我々はSimPLRとスケールアウェアスを併用した実験を通して、単純なアーキテクチャでありながら、マルチスケールビジョントランスフォーマーの代替品と競合することを発見した。
論文 参考訳(メタデータ) (2023-10-09T17:59:26Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Exploring the Performance and Efficiency of Transformer Models for NLP
on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。
トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。
この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2023-06-20T10:15:01Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Multimodal Generation of Novel Action Appearances for Synthetic-to-Real
Recognition of Activities of Daily Living [25.04517296731092]
外見の変化のようなドメインシフトは、アクティビティ認識モデルの現実的な応用において重要な課題である。
本稿では,既存の活動モダリティから新たなADLの出現を生成するアクティビティドメイン生成フレームワークを提案する。
本フレームワークは,人間のポーズ,体継手のヒートマップ,光フローマップを計算し,元のRGBビデオと併用してソースドメインの本質を学習する。
論文 参考訳(メタデータ) (2022-08-03T08:28:33Z) - Exploring Transformers for Behavioural Biometrics: A Case Study in Gait
Recognition [0.7874708385247353]
本稿ではトランスフォーマーに基づく新しい歩行生体認証システムについて検討し,提案する。
実験フレームワークでは、最先端アーキテクチャ(Vanilla、Informer、Autoformer、Block-Recurrent Transformer、THAT)が検討されている。
代表的な2つの公開データベースwuGAITとOU-ISIRを用いて実験を行った。
論文 参考訳(メタデータ) (2022-06-03T08:08:40Z) - UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。
特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。
我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文 参考訳(メタデータ) (2022-05-24T03:29:54Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-08T11:09:40Z) - Multi-Exit Vision Transformer for Dynamic Inference [88.17413955380262]
視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
論文 参考訳(メタデータ) (2021-06-29T09:01:13Z) - Real-time Human Activity Recognition Using Conditionally Parametrized
Convolutions on Mobile and Wearable Devices [14.260179062012512]
ディープ畳み込みニューラルネットワーク(CNN)は、さまざまなHARデータセットで最先端のパフォーマンスを達成した。
深い傾きの操作の多さは計算コストを増大させ,モバイルおよびウェアラブルセンサを用いたリアルタイムHARには適さない。
本研究では,モバイルおよびウェアラブルデバイス上でのリアルタイムHARのための条件パラメタライズド・コンボリューションを用いた効率的なCNNを提案する。
論文 参考訳(メタデータ) (2020-06-05T07:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。