Fugu-MT 論文翻訳(概要): MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human Activity Recognition

論文の概要: MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human Activity Recognition

arxiv url: http://arxiv.org/abs/2210.09222v2
Date: Wed, 11 Oct 2023 19:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 15:55:42.679488
Title: MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human Activity Recognition
Title（参考訳）: MMTSA:効率的な人間活動認識のためのマルチモーダル時間セグメント注意ネットワーク
Authors: Ziqi Gao, Yuntao Wang, Jianguo Chen, Junliang Xing, Shwetak Patel, Xin Liu, Yuanchun Shi
Abstract要約: マルチモーダルセンサは、人間の活動認識のための正確な機械学習方法を開発するために補完情報を提供する。本稿では,RGBカメラと慣性計測ユニット(IMU)を用いたHARのための効率的なマルチモーダルニューラルネットワークアーキテクチャを提案する。 3つの確立された公開データセットを用いて,HARにおけるMTSAの有効性と効率を評価した。
参考スコア（独自算出の注目度）: 33.94582546667864
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal sensors provide complementary information to develop accurate machine-learning methods for human activity recognition (HAR), but introduce significantly higher computational load, which reduces efficiency. This paper proposes an efficient multimodal neural architecture for HAR using an RGB camera and inertial measurement units (IMUs) called Multimodal Temporal Segment Attention Network (MMTSA). MMTSA first transforms IMU sensor data into a temporal and structure-preserving gray-scale image using the Gramian Angular Field (GAF), representing the inherent properties of human activities. MMTSA then applies a multimodal sparse sampling method to reduce data redundancy. Lastly, MMTSA adopts an inter-segment attention module for efficient multimodal fusion. Using three well-established public datasets, we evaluated MMTSA's effectiveness and efficiency in HAR. Results show that our method achieves superior performance improvements 11.13% of cross-subject F1-score on the MMAct dataset than the previous state-of-the-art (SOTA) methods. The ablation study and analysis suggest that MMTSA's effectiveness in fusing multimodal data for accurate HAR. The efficiency evaluation on an edge device showed that MMTSA achieved significantly better accuracy, lower computational load, and lower inference latency than SOTA methods.
Abstract（参考訳）: マルチモーダルセンサは、ヒューマンアクティビティ認識(HAR)のための正確な機械学習手法を開発するために補完的な情報を提供するが、計算負荷が大幅に増加し、効率が低下する。本稿では、RGBカメラと慣性測定ユニット(IMU)を用いたHARのための効率的なマルチモーダルニューラルネットワークを提案し、MMTSA(Multimodal Temporal Segment Attention Network)を提案する。 MMTSAはまず、人間の活動の性質を表すグラム角場(GAF)を用いて、IMUセンサデータを時間的、構造的に保存されたグレースケールの画像に変換する。 MMTSAはデータ冗長性を低減するためにマルチモーダルスパースサンプリング法を適用した。最後に、MTSAは効率的なマルチモーダル核融合のためのインターセグメントアテンションモジュールを採用する。 3つの確立された公開データセットを用いて,HARにおけるMTSAの有効性と効率を評価した。その結果,従来のSOTA法に比べて,MMActデータセット上でのクロスオブジェクトF1スコアの11.13%の性能向上が得られた。アブレーション研究と分析により,MMTSAのマルチモーダルデータを正確なHARに融合させる効果が示唆された。エッジデバイス上での効率評価の結果,MMTSAはSOTA法よりも精度が高く,計算負荷も低く,推論遅延も低かった。

関連論文リスト

Robust Multimodal Sentiment Analysis via Double Information Bottleneck [55.32835720742616]
マルチモーダル感情分析は様々な研究領域で注目されている。既存のアプローチでは、ノイズに汚染された単調なデータの学習が不十分である。本稿では,Double Information Bottleneck(DIB)戦略を提案する。
論文参考訳（メタデータ） (2025-11-03T10:52:45Z)
Focus Through Motion: RGB-Event Collaborative Token Sparsification for Efficient Object Detection [56.88160531995454]
既存のRGBイベント検出手法は、特徴抽出と融合の間、両方のモダリティの低情報領域を均一に処理する。マルチモーダル特徴の適応的コラボレーティブスカラー化を行うFocusMambaを提案する。 DSEC-Det と PKU-DAVIS-SOD データセットを用いた実験により,提案手法は精度と効率の両方において優れた性能が得られることを示した。
論文参考訳（メタデータ） (2025-09-04T04:18:46Z)
FAMNet: Integrating 2D and 3D Features for Micro-expression Recognition via Multi-task Learning and Hierarchical Attention [0.0]
マイクロ表現認識(MER)は多くの分野において必須の応用価値を持つが,マイクロ表現認識(ME)の短期的・低強度化はMERに重大な課題をもたらす。本稿では,2次元CNNと3次元CNNを組み合わせることで,MEsの全方位特徴を完全に抽出する,マルチタスク学習と階層的注意に基づく新しいMER手法を提案する。大規模な実験結果から,提案するFAMNetはタスク性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-08-19T03:27:15Z)
USAD: End-to-End Human Activity Recognition via Diffusion Model with Spatiotemporal Attention [8.061018589897277]
人間の活動認識は、健康モニタリング、安全保護、スポーツ分析に幅広い応用を見出すタスクである。研究の進展にもかかわらず、ヒトの活動認識は、稀な活動のためのラベル付きサンプルの不足など、依然として重要な課題に直面している。本稿では,マルチアテンション相互作用機構に着目した包括的な最適化手法を提案する。
論文参考訳（メタデータ） (2025-07-03T17:38:44Z)
Resource-Efficient Beam Prediction in mmWave Communications with Multimodal Realistic Simulation Framework [57.994965436344195]
ビームフォーミングは、方向と強度を最適化して信号伝送を改善するミリ波通信において重要な技術である。マルチモーダルセンシング支援ビーム予測は,ユーザ位置やネットワーク条件を予測するために,さまざまなセンサデータを使用して注目されている。その有望な可能性にもかかわらず、マルチモーダルセンシング支援ビーム予測の採用は、高い計算複雑性、高いコスト、限られたデータセットによって妨げられている。
論文参考訳（メタデータ） (2025-04-07T15:38:25Z)
Scaling Efficient Masked Image Modeling on Large Remote Sensing Dataset [66.15872913664407]
本稿では、大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。我々は、利用可能なRSデータセットを収集し、排他的、スライシング、復号化を通じてそれらを処理することで、OptoRS-13Mという高品質なデータセットをキュレートした。実験により,OCR-13Mは分類,検出,セグメンテーション性能を著しく向上し,SelectiveMAEは2回以上のトレーニング効率を向上させることが示された。
論文参考訳（メタデータ） (2024-06-17T15:41:57Z)
AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文参考訳（メタデータ） (2024-05-21T17:17:17Z)
AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文参考訳（メタデータ） (2024-04-20T15:23:15Z)
HARMamba: Efficient and Lightweight Wearable Sensor Human Activity Recognition Based on Bidirectional Mamba [7.412537185607976]
ウェアラブルセンサーによる人間の活動認識(HAR)は、活動知覚において重要な研究領域である。 HARMambaは、選択的な双方向状態空間モデルとハードウェア対応設計を組み合わせた、革新的な軽量で多用途なHARアーキテクチャである。 HarMambaは現代の最先端フレームワークより優れており、計算とメモリの要求を大幅に削減し、同等またはより良い精度を提供する。
論文参考訳（メタデータ） (2024-03-29T13:57:46Z)
PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文参考訳（メタデータ） (2023-10-18T02:59:57Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文参考訳（メタデータ） (2023-05-25T15:46:20Z)
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。 Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文参考訳（メタデータ） (2022-12-08T18:59:57Z)
Dimensionality Expansion of Load Monitoring Time Series and Transfer Learning for EMS [0.7133136338850781]
エネルギー管理システムは、アプライアンスを監視し管理するために(非)侵入負荷監視(N)ILMに依存している。本稿では,時系列の次元展開と移動学習に基づくEMS構築における負荷監視手法を提案する。
論文参考訳（メタデータ） (2022-04-06T13:13:24Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)
A Deep Learning Method for Complex Human Activity Recognition Using Virtual Wearable Sensors [22.923108537119685]
センサに基づくヒューマンアクティビティ認識(HAR)は、現在、複数のアプリケーション領域で研究ホットスポットとなっている。本研究では,実シーンにおける複雑なHARの深層学習に基づく新しい手法を提案する。提案手法は驚くほど数イテレーションで収束し、実際のIMUデータセット上で91.15%の精度が得られる。
論文参考訳（メタデータ） (2020-03-04T03:31:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。