論文の概要: HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound
- arxiv url: http://arxiv.org/abs/2605.02596v1
- Date: Mon, 04 May 2026 13:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.311478
- Title: HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound
- Title(参考訳): HARMES: 運動・環境センシング・音によるウェアラブルな人間の活動認識のためのマルチモーダルデータセット
- Authors: Robin Burchard, Pascal-André Brückner, Marius Bock, Juergen Gall, Kristof Van Laerhoven,
- Abstract要約: この研究は、3つの手首記録されたモダリティを組み合わせたマルチモーダルウェアラブルデータセットであるHARMESを導入している。
HarMESは80時間以上の記録データを収集し、参加者1人あたり約3時間のラベル付き活動データを収集する。
私たちの知る限りでは、HARMESはこのセンサートリオを組み合わせた最初のデータセットである。
- 参考スコア(独自算出の注目度): 22.090898322586824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With each sensing modality exhibiting inherent strengths and limitations, multi-modal approaches for wearable Human Activity Recognition (HAR) are becoming increasingly relevant -- particularly for recognizing Activities of Daily Living (ADLs), where individual modalities often produce ambiguous signals for similar or complex activities. This work introduces HARMES, a multi-modal wearable dataset combining three wrist-recorded modalities: motion sensing via an Inertial Measurement Unit (IMU), atmospheric environmental sensors (humidity, temperature, and pressure), and audio. Collected from 20 participants performing household activities in their own homes, HARMES totals over 80 hours of recorded data, with approximately three hours of labeled activity data per participant across 15 ADL classes. To the best of our knowledge, HARMES is the first dataset to combine this particular sensor trio, and it is nearly six times larger than the previously largest wrist-inertial-acoustic HAR dataset. In an extensive benchmark, we evaluate cross-subject generalization and conduct an ablation study revealing that modality contributions are activity-dependent and can provide complementary value, particularly for activities that are ambiguous from motion data alone. HARMES is freely available at Zenodo, alongside example code for loading the dataset and training models on GitHub.
- Abstract(参考訳): それぞれの知覚モダリティが固有の強みと限界を示すことから、ウェアラブルヒューマンアクティビティ認識(HAR)に対するマルチモーダルなアプローチがますます重要になっている。
これは、慣性測定ユニット(IMU)によるモーションセンシング、大気環境センサー(湿度、温度、圧力)、オーディオの3つの手首に記録されたモードを組み合わせたマルチモーダルウェアラブルデータセットである。
HARMESは、自宅で家事活動を行う20人の参加者から収集され、計80時間以上の記録データと15のADLクラスで約3時間のラベル付き活動データを収集した。
私たちの知る限りでは、HARMESはこのセンサトリオを組み合わせた最初のデータセットであり、これまで最大の手首慣性音響HARデータセットの6倍近いサイズである。
広範囲なベンチマークで,対象間の一般化を評価し,モダリティの寄与が活動に依存し,特に運動データから不明瞭な活動に対して相補的価値を提供できることを示すアブレーション研究を行った。
HARMESはZenodoで無料で利用可能であり、データセットやトレーニングモデルをGitHubでロードするサンプルコードも用意されている。
関連論文リスト
- InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation [54.09384502044162]
大規模な3D HOIベンチマークであるInterActを導入する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-11T15:43:54Z) - Hierarchical and Multimodal Data for Daily Activity Understanding [11.200514097148776]
Daily Activity Recordings for Artificial Intelligence (DARai)は、現実の環境での人間の活動を理解するために構築されたマルチモーダルデータセットである。
DARaiは、10の異なる環境における50人の参加者による連続的なスクリプトと未記述の録音で構成され、合計200時間以上のデータである。
さまざまな機械学習モデルによる実験では、人間中心のアプリケーションにおける重要な課題を明らかにする上で、DARaiの価値が示されている。
論文 参考訳(メタデータ) (2025-04-24T16:04:00Z) - DISCOVER: Data-driven Identification of Sub-activities via Clustering and Visualization for Enhanced Activity Recognition in Smart Homes [46.86909768552777]
本研究では,未ラベルセンサデータから詳細な人間のサブアクティビティを検出する手法であるdiscoVERについて,事前のセグメンテーションに頼ることなく紹介する。
広範に使用されているHARデータセットに対する再注釈演習を通じて,その効果を実証する。
論文 参考訳(メタデータ) (2025-02-11T20:02:24Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection [54.696819174421584]
大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actには280万以上のアクションラベルがある。
JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
論文 参考訳(メタデータ) (2021-06-16T14:43:46Z) - Sequential Weakly Labeled Multi-Activity Localization and Recognition on
Wearable Sensors using Recurrent Attention Networks [13.64024154785943]
本稿では,逐次的にラベル付けされたマルチアクティビティ認識と位置情報タスクを処理するために,RAN(Recurrent attention network)を提案する。
我々のRANモデルは、粗粒度シーケンシャルな弱いラベルからマルチアクティビティータイプを同時に推測することができる。
手動ラベリングの負担を大幅に軽減する。
論文 参考訳(メタデータ) (2020-04-13T04:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。