論文の概要: HAMLET: A Hierarchical Multimodal Attention-based Human Activity
Recognition Algorithm
- arxiv url: http://arxiv.org/abs/2008.01148v1
- Date: Mon, 3 Aug 2020 19:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 07:06:40.651770
- Title: HAMLET: A Hierarchical Multimodal Attention-based Human Activity
Recognition Algorithm
- Title(参考訳): hamlet:階層型マルチモーダルアテンションに基づくヒューマンアクティビティ認識アルゴリズム
- Authors: Md Mofijul Islam and Tariq Iqbal
- Abstract要約: ヒューマンアクティビティ認識(HAR)は,マルチモーダルデータ融合の難しさから,ロボットにとって困難な課題である。
本研究では,ニューラルネットワークに基づくマルチモーダルアルゴリズムHAMLETを提案する。
上層層における多モーダル特徴を計算するために,有意な単モーダル特徴を分離・融合する新しい多モーダルアテンション機構を開発した。
- 参考スコア(独自算出の注目度): 5.276937617129594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To fluently collaborate with people, robots need the ability to recognize
human activities accurately. Although modern robots are equipped with various
sensors, robust human activity recognition (HAR) still remains a challenging
task for robots due to difficulties related to multimodal data fusion. To
address these challenges, in this work, we introduce a deep neural
network-based multimodal HAR algorithm, HAMLET. HAMLET incorporates a
hierarchical architecture, where the lower layer encodes spatio-temporal
features from unimodal data by adopting a multi-head self-attention mechanism.
We develop a novel multimodal attention mechanism for disentangling and fusing
the salient unimodal features to compute the multimodal features in the upper
layer. Finally, multimodal features are used in a fully connect neural-network
to recognize human activities. We evaluated our algorithm by comparing its
performance to several state-of-the-art activity recognition algorithms on
three human activity datasets. The results suggest that HAMLET outperformed all
other evaluated baselines across all datasets and metrics tested, with the
highest top-1 accuracy of 95.12% and 97.45% on the UTD-MHAD [1] and the
UT-Kinect [2] datasets respectively, and F1-score of 81.52% on the UCSD-MIT [3]
dataset. We further visualize the unimodal and multimodal attention maps, which
provide us with a tool to interpret the impact of attention mechanisms
concerning HAR.
- Abstract(参考訳): ロボットは人間の活動を正確に認識する能力を必要としている。
現代のロボットには様々なセンサーが備わっているが、マルチモーダルデータ融合の難しさから、堅牢な人間活動認識(HAR)は依然としてロボットにとって困難な課題である。
これらの課題に対処するため、我々はディープニューラルネットワークに基づくマルチモーダルHARアルゴリズムHAMLETを導入する。
HAMLETには階層型アーキテクチャが組み込まれており、低層はマルチヘッドの自己認識機構を採用することで、非モーダルデータからの時空間的特徴を符号化する。
上層層における多モーダル特徴を計算するために,有意な単モーダル特徴を分離・融合する新しい多モーダルアテンション機構を開発した。
最後に、マルチモーダル機能は、人間の活動を認識するために完全に接続されたニューラルネットワークで使用される。
このアルゴリズムを,3つのヒューマンアクティビティデータセットを用いた最先端アクティビティ認識アルゴリズムと比較して評価した。
その結果、HAMLETは全てのデータセットとメトリクスで評価されたベースラインを上回り、最高トップ-1の精度は、UTD-MHAD [1]とUT-Kinect [2]データセットで95.12%、F1スコアはUCSD-MIT [3]データセットで81.52%であった。
我々はさらに,HARに関する注意機構の影響を解釈するツールを提供する,一様および多様の注意マップを可視化する。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - Unified Framework with Consistency across Modalities for Human Activity Recognition [14.639249548669756]
本稿では,ロバストな映像に基づく人間行動認識のための包括的枠組みを提案する。
主な貢献はComputerと呼ばれる新しいクエリマシンの導入である。
提案手法は,最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T02:25:10Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。
特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。
我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文 参考訳(メタデータ) (2022-05-24T03:29:54Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Addressing Data Scarcity in Multimodal User State Recognition by
Combining Semi-Supervised and Supervised Learning [1.1688030627514532]
本稿では,人間とロボットの相互作用環境における解離・解離状態を検出するためのマルチモーダル機械学習手法を提案する。
我々は,少ないラベル付きデータと大きなラベル付きデータセットを用いて,デア/アグリメント検出のための平均F1スコア81.1%を達成する。
論文 参考訳(メタデータ) (2022-02-08T10:41:41Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - PALMAR: Towards Adaptive Multi-inhabitant Activity Recognition in
Point-Cloud Technology [0.0]
我々は,効率的な信号処理と新しい機械学習技術を用いて,多人数行動認識システムであるPALMARを開発した。
筆者らは, (i) 3台のデバイス(3D LiDAR, 79GHz mmWave)で収集したリアルタイムPCDと, (ii) 3D LiDAR 活動データ (28名) と (iii) 組込みハードウェアプロトタイプシステムを用いて, フレームワークとシステムを実験的に評価した。
論文 参考訳(メタデータ) (2021-06-22T16:17:50Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。