論文の概要: XRF V2: A Dataset for Action Summarization with Wi-Fi Signals, and IMUs in Phones, Watches, Earbuds, and Glasses
- arxiv url: http://arxiv.org/abs/2501.19034v2
- Date: Wed, 16 Jul 2025 04:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 14:40:09.228343
- Title: XRF V2: A Dataset for Action Summarization with Wi-Fi Signals, and IMUs in Phones, Watches, Earbuds, and Glasses
- Title(参考訳): XRF V2:電話、時計、イヤホン、ガラスにおけるWi-Fi信号とIMUによるアクション要約のためのデータセット
- Authors: Bo Lan, Pei Li, Jiaxi Yin, Yunpeng Song, Ge Wang, Han Ding, Jinsong Han, Fei Wang,
- Abstract要約: 本稿では,室内における活動時間的行動局所化(TAL)と行動要約のための新しいXRF V2データセットを提案する。
XRF V2は、Wi-Fi信号、IMUセンサー(スマートフォン、スマートウォッチ、ヘッドフォン、スマートグラス)からのマルチモーダルデータと、同期ビデオ記録を統合している。
talと行動の要約に対処するため,XRFMambaニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 16.719450267322653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Action Recognition (HAR) plays a crucial role in applications such as health monitoring, smart home automation, and human-computer interaction. While HAR has been extensively studied, action summarization using Wi-Fi and IMU signals in smart-home environments , which involves identifying and summarizing continuous actions, remains an emerging task. This paper introduces the novel XRF V2 dataset, designed for indoor daily activity Temporal Action Localization (TAL) and action summarization. XRF V2 integrates multimodal data from Wi-Fi signals, IMU sensors (smartphones, smartwatches, headphones, and smart glasses), and synchronized video recordings, offering a diverse collection of indoor activities from 16 volunteers across three distinct environments. To tackle TAL and action summarization, we propose the XRFMamba neural network, which excels at capturing long-term dependencies in untrimmed sensory sequences and achieves the best performance with an average mAP of 78.74, outperforming the recent WiFiTAD by 5.49 points in mAP@avg while using 35% fewer parameters. In action summarization, we introduce a new metric, Response Meaning Consistency (RMC), to evaluate action summarization performance. And it achieves an average Response Meaning Consistency (mRMC) of 0.802. We envision XRF V2 as a valuable resource for advancing research in human action localization, action forecasting, pose estimation, multimodal foundation models pre-training, synthetic data generation, and more. The data and code are available at https://github.com/aiotgroup/XRFV2.
- Abstract(参考訳): HAR(Human Action Recognition)は、健康モニタリング、スマートホームオートメーション、人間とコンピュータのインタラクションといった応用において重要な役割を果たす。
HARは広範に研究されているが、スマートホーム環境におけるWi-FiおよびIMU信号を用いたアクション要約は、連続的なアクションを識別・要約することを含む、新たな課題である。
本稿では,室内における活動時間的行動局所化(TAL)と行動要約のための新しいXRF V2データセットを提案する。
XRF V2は、Wi-Fi信号、IMUセンサー(スマートフォン、スマートウォッチ、ヘッドフォン、スマートグラス)からのマルチモーダルデータと、同期されたビデオ記録を統合し、3つの異なる環境で16人のボランティアによる多様な屋内活動のコレクションを提供する。
talとアクションの要約に取り組むために、XRFMambaニューラルネットワークを提案し、35%のパラメータを使用しながら、最近のWiFiTADを5.49ポイント上回る平均mAP 78.74で最高の性能を達成する。
動作要約において,動作要約性能を評価するために,新しい指標である応答平均一貫性(RMC)を導入する。
また、平均応答平均一貫性(mRMC)は0.802である。
我々は,XRF V2を,人間の行動ローカライゼーション,行動予測,ポーズ推定,マルチモーダル基礎モデル事前学習,合成データ生成などの研究を進めるための貴重な資源として想定する。
データとコードはhttps://github.com/aiotgroup/XRFV2.comで入手できる。
関連論文リスト
- Improving Out-of-distribution Human Activity Recognition via IMU-Video Cross-modal Representation Learning [3.177649348456073]
ウェアラブル慣性センサーに基づくヒューマンアクティビティ認識(HAR)は,遠隔健康モニタリングにおいて重要な役割を担っている。
我々は,大規模未ラベルIMUビデオデータから表現を学習するための,クロスモーダルな自己教師型事前学習手法を提案する。
以上の結果から,提案手法は現状のIMU-ビデオ事前訓練手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-07-17T18:47:46Z) - Hierarchical and Multimodal Data for Daily Activity Understanding [11.200514097148776]
Daily Activity Recordings for Artificial Intelligence (DARai)は、現実の環境での人間の活動を理解するために構築されたマルチモーダルデータセットである。
DARaiは、10の異なる環境における50人の参加者による連続的なスクリプトと未記述の録音で構成され、合計200時間以上のデータである。
さまざまな機械学習モデルによる実験では、人間中心のアプリケーションにおける重要な課題を明らかにする上で、DARaiの価値が示されている。
論文 参考訳(メタデータ) (2025-04-24T16:04:00Z) - Talk is Not Always Cheap: Promoting Wireless Sensing Models with Text Prompts [14.801020598640191]
本稿では,3つの迅速な戦略記述,簡潔な説明,詳細なアクション記述を通じて意味的知識をシームレスに統合する,革新的なテキスト強調型無線センシングフレームワークWiTalkを提案する。
我々は、このフレームワークを、人行動認識のためのXRF55、WiFiTAL、WiFi時行動ローカライゼーションのためのXRFV2の3つの公開ベンチマークデータセットで厳格に検証した。
論文 参考訳(メタデータ) (2025-04-20T13:58:35Z) - AIvaluateXR: An Evaluation Framework for on-Device AI in XR with Benchmarking Results [55.33807002543901]
我々は,XRデバイス上で動作する大規模言語モデル(LLM)をベンチマークするための総合評価フレームワークであるAIvaluateXRを提案する。
我々はMagic Leap 2、Meta Quest 3、Vivo X100s Pro、Apple Vision Proという4つのXRプラットフォームに17個の選択されたLSMをデプロイし、広範囲な評価を行います。
本稿では,3次元最適性理論に基づく統一評価手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T20:55:48Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - MaskFi: Unsupervised Learning of WiFi and Vision Representations for
Multimodal Human Activity Recognition [32.89577715124546]
我々は、未ラベルのビデオとWiFiのアクティビティデータのみをモデルトレーニングに活用する、新しい教師なしマルチモーダルHARソリューションMaskFiを提案する。
教師なしの学習手順から恩恵を受けるため、ネットワークは微調整のために少量の注釈付きデータしか必要とせず、より良いパフォーマンスで新しい環境に適応できる。
論文 参考訳(メタデータ) (2024-02-29T15:27:55Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - Aria-NeRF: Multimodal Egocentric View Synthesis [17.0554791846124]
ニューラルラジアンス場(NeRFs)にインスパイアされた可変体積線トレーシングに基づく、エゴセントリックなデータから訓練されたリッチでマルチモーダルなシーンモデルの開発における研究の加速を目指す。
このデータセットは、RGB画像、アイトラッキングカメラの映像、マイクからの音声記録、気圧計による気圧測定、GPSによる位置座標、デュアル周波数IMUデータセット(1kHzと800Hz)の情報を含む、総合的なセンサデータの収集を提供する。
このデータセットで捉えた多様なデータモダリティと現実世界のコンテキストは、人間の行動に対する理解を深め、より没入的でインテリジェントな体験を可能にするための堅牢な基盤となる。
論文 参考訳(メタデータ) (2023-11-11T01:56:35Z) - MultiIoT: Benchmarking Machine Learning for the Internet of Things [70.74131118309967]
次世代の機械学習システムは、物理的世界に対する知覚と相互作用に長けなければならない。
運動、熱、位置情報、深度、無線信号、ビデオ、オーディオからの知覚データは、物理環境の状態をモデル化するためにますます使われています。
既存の取り組みは、しばしば単一の感覚的モダリティまたは予測タスクに特化している。
本稿は、12のモダリティと8つの現実世界タスクから115万以上のサンプルを含む、これまでで最も拡張的で統一されたIoTベンチマークであるMultiIoTを提案する。
論文 参考訳(メタデータ) (2023-11-10T18:13:08Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition [45.0131792009999]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、ほとんどの標準的な評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Contactless Human Activity Recognition using Deep Learning with Flexible
and Scalable Software Define Radio [1.3106429146573144]
本研究では,環境センシングの新たな手法として,Wi-Fiチャネル状態情報(CSI)の利用について検討する。
これらの方法は、プライバシーを侵害する視覚ベースのシステムに必要な追加のハードウェアを避ける。
本研究では,Wi-Fi CSIベースのHARシステムを提案する。
論文 参考訳(メタデータ) (2023-04-18T10:20:14Z) - Variational Autoencoder Assisted Neural Network Likelihood RSRP
Prediction Model [2.881201648416745]
MDTデータとデジタルツイン(DT)を利用したRSRP予測のための生成モデルについて検討する。
実世界のデータを用いた提案モデルでは,実証モデルと比較して約20%以上の精度向上が示されている。
論文 参考訳(メタデータ) (2022-06-27T17:27:35Z) - WiFi-based Spatiotemporal Human Action Perception [53.41825941088989]
SNN(End-to-end WiFi signal Neural Network)は、Wi-Fiのみのセンシングを可能にするために提案されている。
特に、3D畳み込みモジュールはWiFi信号の時間的連続性を探索することができ、特徴自己保持モジュールは支配的な特徴を明示的に維持することができる。
論文 参考訳(メタデータ) (2022-06-20T16:03:45Z) - A Wireless-Vision Dataset for Privacy Preserving Human Activity
Recognition [53.41825941088989]
アクティビティ認識の堅牢性を改善するため,WiNN(WiFi-based and video-based neural network)が提案されている。
以上の結果から,WiViデータセットは一次需要を満足し,パイプライン内の3つのブランチはすべて,80%以上のアクティビティ認識精度を維持していることがわかった。
論文 参考訳(メタデータ) (2022-05-24T10:49:11Z) - SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge
Devices [69.1412199244903]
エッジデバイス上でMLOpsを統合した,適応モデル実行のためのマルチテナントランタイムを提案する。
S SensiX++は、高度にモジュール化されたコンポーネント化と、明確な抽象化によるデータ操作の外部化と、システム全体のオーケストレーションのためのドキュメント中心の宣言という、2つの基本原則で運用されている。
SensiX++のさまざまな自動化コンポーネントの全体的なスループットと定量化メリットについて報告し、運用の複雑さを著しく低減し、エッジデバイスへの組み込みモデルのデプロイ、アップグレード、再構成、提供の労力を削減する効果を実証する。
論文 参考訳(メタデータ) (2021-09-08T22:06:16Z) - Moving Object Classification with a Sub-6 GHz Massive MIMO Array using
Real Data [64.48836187884325]
無線信号を用いた屋内環境における各種活動の分類は,様々な応用の新たな技術である。
本論文では,屋内環境におけるマルチインプット・マルチアウトプット(MIMO)システムから,機械学習を用いて移動物体の分類を解析する。
論文 参考訳(メタデータ) (2021-02-09T15:48:35Z) - SensiX: A Platform for Collaborative Machine Learning on the Edge [69.1412199244903]
センサデータとセンサモデルの間に留まるパーソナルエッジプラットフォームであるSensiXを紹介する。
動作および音声に基づくマルチデバイスセンシングシステムの開発において,その有効性を示す。
評価の結果,SensiXは3mWのオーバヘッドを犠牲にして,全体の精度が7~13%向上し,環境のダイナミクスが最大30%向上することがわかった。
論文 参考訳(メタデータ) (2020-12-04T23:06:56Z) - Sequential Weakly Labeled Multi-Activity Localization and Recognition on
Wearable Sensors using Recurrent Attention Networks [13.64024154785943]
本稿では,逐次的にラベル付けされたマルチアクティビティ認識と位置情報タスクを処理するために,RAN(Recurrent attention network)を提案する。
我々のRANモデルは、粗粒度シーケンシャルな弱いラベルからマルチアクティビティータイプを同時に推測することができる。
手動ラベリングの負担を大幅に軽減する。
論文 参考訳(メタデータ) (2020-04-13T04:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。