論文の概要: A Comparative Study of Human Activity Recognition: Motion, Tactile, and multi-modal Approaches
- arxiv url: http://arxiv.org/abs/2505.08657v1
- Date: Tue, 13 May 2025 15:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.636567
- Title: A Comparative Study of Human Activity Recognition: Motion, Tactile, and multi-modal Approaches
- Title(参考訳): 人間活動認識の比較研究:運動・触覚・マルチモーダルアプローチ
- Authors: Valerio Belcamino, Nhat Minh Dinh Le, Quan Khanh Luu, Alessandro Carfì, Van Anh Ho, Fulvio Mastrogiovanni,
- Abstract要約: 本研究は、視覚に基づく触覚センサが15のアクティビティを分類する能力を評価する。
触覚とモーションデータを組み合わせたマルチモーダル・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.97520291340696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human activity recognition (HAR) is essential for effective Human-Robot Collaboration (HRC), enabling robots to interpret and respond to human actions. This study evaluates the ability of a vision-based tactile sensor to classify 15 activities, comparing its performance to an IMU-based data glove. Additionally, we propose a multi-modal framework combining tactile and motion data to leverage their complementary strengths. We examined three approaches: motion-based classification (MBC) using IMU data, tactile-based classification (TBC) with single or dual video streams, and multi-modal classification (MMC) integrating both. Offline validation on segmented datasets assessed each configuration's accuracy under controlled conditions, while online validation on continuous action sequences tested online performance. Results showed the multi-modal approach consistently outperformed single-modality methods, highlighting the potential of integrating tactile and motion sensing to enhance HAR systems for collaborative robotics.
- Abstract(参考訳): HAR(Human Activity Recognition)は、人間とロボットの効果的なコラボレーション(HRC: Human-Robot Collaboration)に必須であり、ロボットが人間の行動を解釈し、反応することを可能にする。
本研究は、視覚に基づく触覚センサが15のアクティビティを分類し、その性能をIMUベースのデータグローブと比較する能力を評価する。
さらに,触覚と運動データを組み合わせて,それらの相補的な強みを利用するマルチモーダルフレームワークを提案する。
IMUデータを用いた動作ベース分類(MBC)、単一または二重のビデオストリームを用いた触覚ベース分類(TBC)、マルチモーダル分類(MMC)の3つのアプローチを検討した。
セグメント化されたデータセットのオフライン検証は、各設定の精度を制御された条件下で評価し、連続的なアクションシーケンスのオンライン検証はオンラインのパフォーマンスをテストした。
その結果、マルチモーダルアプローチは単一モダリティ法よりも一貫して優れており、協調ロボットのためのHARシステムを強化するために触覚とモーションセンシングを統合する可能性を強調した。
関連論文リスト
- A Comprehensive Methodological Survey of Human Activity Recognition Across Divers Data Modalities [2.916558661202724]
人間活動認識(HAR)システムは、人間の行動を理解し、それぞれの行動にラベルを割り当てることを目的としている。
HARは、RGB画像やビデオ、スケルトン、深度、赤外線、ポイントクラウド、イベントストリーム、オーディオ、アクセラレーション、レーダー信号など、さまざまなデータモダリティを利用することができる。
本稿は,2014年から2024年までのHARの最新の進歩に関する包括的調査である。
論文 参考訳(メタデータ) (2024-09-15T10:04:44Z) - Unified Framework with Consistency across Modalities for Human Activity Recognition [14.639249548669756]
本稿では,ロバストな映像に基づく人間行動認識のための包括的枠組みを提案する。
主な貢献はComputerと呼ばれる新しいクエリマシンの導入である。
提案手法は,最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T02:25:10Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - Attentive Cross-modal Connections for Deep Multimodal Wearable-based
Emotion Recognition [7.559720049837459]
本稿では、畳み込みニューラルネットワーク間で情報を共有するための、新しい注意深いクロスモーダル接続を提案する。
具体的には、EDAとECGの中間表現を共有することにより、感情分類を改善する。
実験の結果,提案手法は強いマルチモーダル表現を学習し,多くのベースライン法より優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-04T18:40:32Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - HAMLET: A Hierarchical Multimodal Attention-based Human Activity
Recognition Algorithm [5.276937617129594]
ヒューマンアクティビティ認識(HAR)は,マルチモーダルデータ融合の難しさから,ロボットにとって困難な課題である。
本研究では,ニューラルネットワークに基づくマルチモーダルアルゴリズムHAMLETを提案する。
上層層における多モーダル特徴を計算するために,有意な単モーダル特徴を分離・融合する新しい多モーダルアテンション機構を開発した。
論文 参考訳(メタデータ) (2020-08-03T19:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。