論文の概要: Transformer-based Models to Deal with Heterogeneous Environments in Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2209.11750v2
- Date: Sat, 23 Aug 2025 20:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:44.909003
- Title: Transformer-based Models to Deal with Heterogeneous Environments in Human Activity Recognition
- Title(参考訳): トランスフォーマーを用いた人間行動認識における異種環境対応モデルの構築
- Authors: Sannara EK, François Portet, Philippe Lalanda,
- Abstract要約: モバイルデバイス上でのヒューマンアクティビティ認識(HAR)は、デバイスの慣性測定ユニットから収集されたデータに基づいてトレーニングされたニューラルネットワークを使用して可能であることが実証されている。
これらのモデルでは、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)、Transformer(トランスフォーマー)、あるいはこれらを組み合わせて、最先端の結果とリアルタイムのパフォーマンスを実現している。
本稿では、機械学習アプリケーションにおけるデータ不均一性の問題と、それが広範に展開することを妨げる方法について述べる。
我々はHARTとMobileHART for Human Activity Recognition Transformerという2つのセンサワイドトランスアーキテクチャのコードを提案し,公開する。
- 参考スコア(独自算出の注目度): 2.8381580557475963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Activity Recognition (HAR) on mobile devices has been demonstrated to be possible using neural models trained on data collected from the device's inertial measurement units. These models have used Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTMs), Transformers or a combination of these to achieve state-of-the-art results with real-time performance. However, these approaches have not been extensively evaluated in real-world situations where the input data may be different from the training data. This paper highlights the issue of data heterogeneity in machine learning applications and how it can hinder their deployment in pervasive settings. To address this problem, we propose and publicly release the code of two sensor-wise Transformer architectures called HART and MobileHART for Human Activity Recognition Transformer. Our experiments on several publicly available datasets show that these HART architectures outperform previous architectures with fewer floating point operations and parameters than conventional Transformers. The results also show they are more robust to changes in mobile position or device brand and hence better suited for the heterogeneous environments encountered in real-life settings. Finally, the source code has been made publicly available.
- Abstract(参考訳): モバイルデバイス上でのヒューマンアクティビティ認識(HAR)は、デバイスの慣性測定ユニットから収集されたデータに基づいてトレーニングされたニューラルネットワークを使用して可能であることが実証されている。
これらのモデルでは、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)、Transformer(トランスフォーマー)、あるいはこれらを組み合わせて、最先端の結果とリアルタイムのパフォーマンスを実現している。
しかし、これらの手法は、入力データがトレーニングデータと異なる可能性がある実世界の状況では、広く評価されていない。
本稿では、機械学習アプリケーションにおけるデータ不均一性の問題と、広範に展開することを妨げる方法について述べる。
この問題を解決するために,HART と MobileHART for Human Activity Recognition Transformer という2つのセンサワイドトランスフォーマーアーキテクチャのコードを提案する。
これらのHARTアーキテクチャは従来のTransformerよりも浮動小数点演算やパラメータが少なく、従来のアーキテクチャよりも優れていることを示す。
結果は、モバイルの位置やデバイスブランドの変化に対して堅牢であり、したがって実生活で遭遇する異種環境に適していることも示している。
最後に、ソースコードが公開されている。
関連論文リスト
- Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Set Transformer Architectures and Synthetic Data Generation for Flow-Guided Nanoscale Localization [13.521075124606973]
Flow-guided Localization (FGL) は、診断上の関心事を含む人体内の空間領域の同定を可能にする。
既存のFGLソリューションは、固定トポロジや手作りの機能を備えたグラフモデルに依存しており、解剖学的変数への適応性を制限し、スケーラビリティを妨げている。
本定式化は,ナノデバイスにおける循環時間レポートを非順序集合として扱い,空間的先行時間に依存することなく,置換不変な可変長入力処理を可能にする。
論文 参考訳(メタデータ) (2025-08-22T08:22:25Z) - SETransformer: A Hybrid Attention-Based Architecture for Robust Human Activity Recognition [7.291558599547268]
ウェアラブルセンサデータを用いたヒューマンアクティビティ認識(HAR)は,モバイルコンピューティング,ヘルスケア,人間とコンピュータのインタラクションにおいて中心的な課題となっている。
本稿では、トランスフォーマーに基づく時間モデルと、チャネルワイド・サスペンション・アンド・エキサイティング(SE)アテンションと、学習可能な時間アテンションプーリング機構を組み合わせたハイブリッドディープニューラルネットワークSETransformerを提案する。
我々は、WISDMデータセット上でSETransformerを評価し、LSTM、GRU、BiLSTM、CNNベースラインといった従来のモデルよりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-05-25T23:39:34Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Transformer-Based Approaches for Sensor-Based Human Activity Recognition: Opportunities and Challenges [0.5983301154764783]
トランスフォーマーは自然言語処理とコンピュータビジョンに優れており、センサーに基づくヒューマンアクティビティ認識(HAR)への道を開いた。
従来の研究では、トランスフォーマーは豊富なデータを利用したり、計算集約的な最適化アルゴリズムを使用したりした場合に、排他的よりも優れていることが示されていた。
しかし、これらのシナリオは、この分野のデータ不足と、リソース制約されたデバイスでのトレーニングと推論を頻繁に行う必要があるため、センサーベースのHARでは実現できない。
論文 参考訳(メタデータ) (2024-10-17T14:39:55Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - SimPLR: A Simple and Plain Transformer for Efficient Object Detection and Segmentation [49.65221743520028]
マルチスケールインダクティブバイアスをアテンション機構にシフトさせることで, プレーン検出器SimPLRが動作可能であることを示す。
我々はSimPLRとスケールアウェアスを併用した実験を通して、単純なアーキテクチャでありながら、マルチスケールビジョントランスフォーマーの代替品と競合することを発見した。
論文 参考訳(メタデータ) (2023-10-09T17:59:26Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Exploring the Performance and Efficiency of Transformer Models for NLP
on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。
トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。
この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2023-06-20T10:15:01Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Multimodal Generation of Novel Action Appearances for Synthetic-to-Real
Recognition of Activities of Daily Living [25.04517296731092]
外見の変化のようなドメインシフトは、アクティビティ認識モデルの現実的な応用において重要な課題である。
本稿では,既存の活動モダリティから新たなADLの出現を生成するアクティビティドメイン生成フレームワークを提案する。
本フレームワークは,人間のポーズ,体継手のヒートマップ,光フローマップを計算し,元のRGBビデオと併用してソースドメインの本質を学習する。
論文 参考訳(メタデータ) (2022-08-03T08:28:33Z) - Exploring Transformers for Behavioural Biometrics: A Case Study in Gait
Recognition [0.7874708385247353]
本稿ではトランスフォーマーに基づく新しい歩行生体認証システムについて検討し,提案する。
実験フレームワークでは、最先端アーキテクチャ(Vanilla、Informer、Autoformer、Block-Recurrent Transformer、THAT)が検討されている。
代表的な2つの公開データベースwuGAITとOU-ISIRを用いて実験を行った。
論文 参考訳(メタデータ) (2022-06-03T08:08:40Z) - UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。
特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。
我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文 参考訳(メタデータ) (2022-05-24T03:29:54Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-08T11:09:40Z) - Multi-Exit Vision Transformer for Dynamic Inference [88.17413955380262]
視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
論文 参考訳(メタデータ) (2021-06-29T09:01:13Z) - Rethinking Architecture Design for Tackling Data Heterogeneity in
Federated Learning [53.73083199055093]
注意に基づくアーキテクチャ(例えばTransformers)は、分散シフトに対してかなり堅牢であることを示す。
我々の実験は、畳み込みネットワークをトランスフォーマーに置き換えることによって、過去のデバイスを壊滅的に忘れることを大幅に減らせることを示した。
論文 参考訳(メタデータ) (2021-06-10T21:04:18Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Description of Structural Biases and Associated Data in Sensor-Rich
Environments [6.548580592686077]
センサが豊富な環境下での活動認識を研究する。
帰納バイアスの問題とそのデータ収集プロセスへの影響に対処します。
本稿では,センサデータをレイヤに構成するメタモデリングプロセスを提案する。
論文 参考訳(メタデータ) (2021-04-11T00:26:59Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Real-time Human Activity Recognition Using Conditionally Parametrized
Convolutions on Mobile and Wearable Devices [14.260179062012512]
ディープ畳み込みニューラルネットワーク(CNN)は、さまざまなHARデータセットで最先端のパフォーマンスを達成した。
深い傾きの操作の多さは計算コストを増大させ,モバイルおよびウェアラブルセンサを用いたリアルタイムHARには適さない。
本研究では,モバイルおよびウェアラブルデバイス上でのリアルタイムHARのための条件パラメタライズド・コンボリューションを用いた効率的なCNNを提案する。
論文 参考訳(メタデータ) (2020-06-05T07:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。