論文の概要: Hierarchical and Multimodal Data for Daily Activity Understanding
- arxiv url: http://arxiv.org/abs/2504.17696v2
- Date: Fri, 25 Apr 2025 16:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.456025
- Title: Hierarchical and Multimodal Data for Daily Activity Understanding
- Title(参考訳): 日常活動理解のための階層的・マルチモーダルデータ
- Authors: Ghazal Kaviani, Yavuz Yarici, Seulgi Kim, Mohit Prabhushankar, Ghassan AlRegib, Mashhour Solh, Ameya Patil,
- Abstract要約: Daily Activity Recordings for Artificial Intelligence (DARai)は、現実の環境での人間の活動を理解するために構築されたマルチモーダルデータセットである。
DARaiは、10の異なる環境における50人の参加者による連続的なスクリプトと未記述の録音で構成され、合計200時間以上のデータである。
さまざまな機械学習モデルによる実験では、人間中心のアプリケーションにおける重要な課題を明らかにする上で、DARaiの価値が示されている。
- 参考スコア(独自算出の注目度): 11.200514097148776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Daily Activity Recordings for Artificial Intelligence (DARai, pronounced "Dahr-ree") is a multimodal, hierarchically annotated dataset constructed to understand human activities in real-world settings. DARai consists of continuous scripted and unscripted recordings of 50 participants in 10 different environments, totaling over 200 hours of data from 20 sensors including multiple camera views, depth and radar sensors, wearable inertial measurement units (IMUs), electromyography (EMG), insole pressure sensors, biomonitor sensors, and gaze tracker. To capture the complexity in human activities, DARai is annotated at three levels of hierarchy: (i) high-level activities (L1) that are independent tasks, (ii) lower-level actions (L2) that are patterns shared between activities, and (iii) fine-grained procedures (L3) that detail the exact execution steps for actions. The dataset annotations and recordings are designed so that 22.7% of L2 actions are shared between L1 activities and 14.2% of L3 procedures are shared between L2 actions. The overlap and unscripted nature of DARai allows counterfactual activities in the dataset. Experiments with various machine learning models showcase the value of DARai in uncovering important challenges in human-centered applications. Specifically, we conduct unimodal and multimodal sensor fusion experiments for recognition, temporal localization, and future action anticipation across all hierarchical annotation levels. To highlight the limitations of individual sensors, we also conduct domain-variant experiments that are enabled by DARai's multi-sensor and counterfactual activity design setup. The code, documentation, and dataset are available at the dedicated DARai website: https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-artificial- intelligence-and-machine-learning/
- Abstract(参考訳): デイリー・アクティビティ・レコーディング・フォー・人工知能(DARai, Dahr-ree)は、現実の環境での人間の活動を理解するために構築されたマルチモーダルで階層的な注釈付きデータセットである。
DARaiは、10の異なる環境における50人の参加者による連続的なスクリプトと記録で構成されており、複数のカメラビュー、深度とレーダーセンサー、ウェアラブル慣性計測ユニット(IMU)、電磁筋電図(EMG)、インソール圧力センサー、バイオモニターセンサー、視線追跡装置を含む20のセンサーから200時間以上のデータを収集している。
人間の活動の複雑さを捉えるため、DARAIは3つの階層で注釈付けされる。
(i)独立タスクであるハイレベルアクティビティ(L1)
(ii)活動間で共有されるパターンである下層行動(L2)
(iii)アクションの正確な実行手順を詳述したきめ細かい手続き(L3)。
データセットのアノテーションと記録は、L2アクションの22.7%がL1アクティビティ間で共有され、L3プロシージャの14.2%がL2アクション間で共有されるように設計されている。
DARaiの重複と記述されていない性質は、データセットの反ファクト的なアクティビティを可能にします。
さまざまな機械学習モデルによる実験では、人間中心のアプリケーションにおける重要な課題を明らかにする上で、DARaiの価値が示されている。
具体的には、すべての階層的アノテーションレベルにわたる認識、時間的局所化、将来の行動予測のための、一様および多モードのセンサー融合実験を行う。
個々のセンサの限界を強調するため,DARaiのマルチセンサーと対物活動設計設定によって実現されるドメイン変種実験も実施する。
コード、ドキュメンテーション、データセットは、DARaiの専用ウェブサイトで入手できる。
関連論文リスト
- DISCOVER: Data-driven Identification of Sub-activities via Clustering and Visualization for Enhanced Activity Recognition in Smart Homes [52.09869569068291]
本研究では,未ラベルセンサデータから詳細な人間のサブアクティビティを検出する手法であるdiscoVERについて,事前のセグメンテーションに頼ることなく紹介する。
広範に使用されているHARデータセットに対する再注釈演習を通じて,その効果を実証する。
論文 参考訳(メタデータ) (2025-02-11T20:02:24Z) - Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Unsupervised Deep Learning-based clustering for Human Activity
Recognition [8.716606664673982]
本稿では,多次元慣性信号を自動的にラベル付けするDLベースのクラスタリングアーキテクチャであるdisC(Deep Inertial Sensory Clustering)を提案する。
このアーキテクチャは、リカレントオートエンコーダとクラスタリング基準を組み合わせることで、人間の活動関連信号を予測する。
この実験は、クラスタリング精度と正規化相互情報量の両方に対するdisCの有効性を示す。
論文 参考訳(メタデータ) (2022-11-10T10:56:47Z) - UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。
特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。
我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文 参考訳(メタデータ) (2022-05-24T03:29:54Z) - CZU-MHAD: A multimodal dataset for human action recognition utilizing a
depth camera and 10 wearable inertial sensors [1.0742675209112622]
CZU-MHAD (Changzhou University: a comprehensive multi-modal human action dataset) は22のアクションと3つのモーダル時間同期データからなる。
これらのモードには、キネクトv2カメラからの深度ビデオと骨格の位置、および10個のウェアラブルセンサーからの慣性信号が含まれる。
論文 参考訳(メタデータ) (2022-02-07T15:17:08Z) - Using Language Model to Bootstrap Human Activity Recognition Ambient
Sensors Based in Smart Homes [2.336163487623381]
本稿では,活動系列分類タスクにおけるLSTMに基づく構造向上のための2つの自然言語処理手法を提案する。
以上の結果から,センサ組織マップなどの有用な情報が得られることが示唆された。
我々のテストでは、埋め込みはターゲットと異なるデータセットで事前トレーニング可能であり、転送学習を可能にしている。
論文 参考訳(メタデータ) (2021-11-23T21:21:14Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z) - Sequential Weakly Labeled Multi-Activity Localization and Recognition on
Wearable Sensors using Recurrent Attention Networks [13.64024154785943]
本稿では,逐次的にラベル付けされたマルチアクティビティ認識と位置情報タスクを処理するために,RAN(Recurrent attention network)を提案する。
我々のRANモデルは、粗粒度シーケンシャルな弱いラベルからマルチアクティビティータイプを同時に推測することができる。
手動ラベリングの負担を大幅に軽減する。
論文 参考訳(メタデータ) (2020-04-13T04:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。