論文の概要: MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human
Activity Recognition
- arxiv url: http://arxiv.org/abs/2210.09222v1
- Date: Fri, 14 Oct 2022 08:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:31:56.945881
- Title: MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human
Activity Recognition
- Title(参考訳): MMTSA:効率的な人間活動認識のためのマルチモーダル時間セグメント注意ネットワーク
- Authors: Ziqi Gao, Jianguo Chen, Junliang Xing, Shwetak Patel, Yuanchun Shi,
Xin Liu, Yuntao Wang
- Abstract要約: 我々は、MMTSA(Multimodal Temporal Segment Attention Network)と呼ばれる、人間の活動認識のための新しいマルチモーダルニューラルネットワークを提案する。
MMTSAは,Gramian Angular Field(GAF)に基づくマルチモーダルデータアイソモーフィズム機構を採用し,冗長性を低減するために新しいマルチモーダルスパースサンプリング手法を適用した。
3つの公開データセットの厳密な評価により,人間活動認識におけるimuデータイメージングと注意機構の重要性を実証する。
- 参考スコア(独自算出の注目度): 37.88707215281562
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal sensors (e.g., visual, non-visual, and wearable) provide
complementary information to develop robust perception systems for recognizing
activities. However, most existing algorithms use dense sampling and
heterogeneous sub-network to extract unimodal features and fuse them at the end
of their framework, which causes data redundancy, lack of complementary
multimodal information and high computational cost. In this paper, we propose a
new novel multimodal neural architecture based on RGB and IMU wearable sensors
(e.g., accelerometer, gyroscope) for human activity recognition called
Multimodal Temporal Segment Attention Network (MMTSA). MMTSA first employs a
multimodal data isomorphism mechanism based on Gramian Angular Field (GAF) and
then applies a novel multimodal sparse sampling method to reduce redundancy.
Moreover, we propose an inter-segment attention module in MMTSA to fuse
multimodal features effectively and efficiently. We demonstrate the importance
of imu data imaging and attention mechanism in human activity recognition by
rigorous evaluation on three public datasets, and achieve superior improvements
($11.13\%$ on the MMAct dataset) than the previous state-of-the-art methods.
The code is available at: https://github.com/THU-CS-PI/MMTSA.
- Abstract(参考訳): マルチモーダルセンサ(視覚、非視覚、ウェアラブルなど)は、アクティビティを認識するための堅牢な知覚システムを開発するために補完的な情報を提供する。
しかし、既存のアルゴリズムの多くは、高密度サンプリングとヘテロジニアスなサブネットワークを使用して、一様特徴を抽出し、フレームワークの最後に融合し、データの冗長性、補完的なマルチモーダル情報の欠如、高い計算コストを引き起こす。
本稿では,マルチモーダル・テンポラルセグメント・アテンション・ネットワーク(mmtsa)と呼ばれる人間の活動認識のための,rgbおよびimuウェアラブル・センサ(加速度計,ジャイロスコープなど)に基づく新しいマルチモーダル・ニューラル・アーキテクチャを提案する。
MMTSAはまず,Gramian Angular Field (GAF) に基づくマルチモーダルデータ同型機構を用いて,新しいマルチモーダルスパースサンプリング法を適用し,冗長性を低減する。
さらに,マルチモーダル機能を効果的かつ効率的に融合するためのmmtsaにおけるセグメント間アテンションモジュールを提案する。
本研究では,3つの公開データセットを厳密に評価することにより,行動認識における imu データイメージングと注意機構の重要性を実証し,従来の最先端手法よりも優れた改善(mmactデータセットで11.13\%$)を実現する。
コードはhttps://github.com/THU-CS-PI/MMTSAで公開されている。
関連論文リスト
- AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - HARMamba: Efficient and Lightweight Wearable Sensor Human Activity Recognition Based on Bidirectional Mamba [7.412537185607976]
ウェアラブルセンサーによる人間の活動認識(HAR)は、活動知覚において重要な研究領域である。
HARMambaは、選択的な双方向状態空間モデルとハードウェア対応設計を組み合わせた、革新的な軽量で多用途なHARアーキテクチャである。
HarMambaは現代の最先端フレームワークより優れており、計算とメモリの要求を大幅に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2024-03-29T13:57:46Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Dimensionality Expansion of Load Monitoring Time Series and Transfer
Learning for EMS [0.7133136338850781]
エネルギー管理システムは、アプライアンスを監視し管理するために(非)侵入負荷監視(N)ILMに依存している。
本稿では,時系列の次元展開と移動学習に基づくEMS構築における負荷監視手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T13:13:24Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - A Deep Learning Method for Complex Human Activity Recognition Using
Virtual Wearable Sensors [22.923108537119685]
センサに基づくヒューマンアクティビティ認識(HAR)は、現在、複数のアプリケーション領域で研究ホットスポットとなっている。
本研究では,実シーンにおける複雑なHARの深層学習に基づく新しい手法を提案する。
提案手法は驚くほど数イテレーションで収束し、実際のIMUデータセット上で91.15%の精度が得られる。
論文 参考訳(メタデータ) (2020-03-04T03:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。