論文の概要: MaskFi: Unsupervised Learning of WiFi and Vision Representations for
Multimodal Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2402.19258v1
- Date: Thu, 29 Feb 2024 15:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:26:35.503707
- Title: MaskFi: Unsupervised Learning of WiFi and Vision Representations for
Multimodal Human Activity Recognition
- Title(参考訳): MaskFi:マルチモーダルヒューマンアクティビティ認識のためのWiFiと視覚表現の教師なし学習
- Authors: Jianfei Yang, Shijie Tang, Yuecong Xu, Yunjiao Zhou, Lihua Xie
- Abstract要約: 我々は、未ラベルのビデオとWiFiのアクティビティデータのみをモデルトレーニングに活用する、新しい教師なしマルチモーダルHARソリューションMaskFiを提案する。
教師なしの学習手順から恩恵を受けるため、ネットワークは微調整のために少量の注釈付きデータしか必要とせず、より良いパフォーマンスで新しい環境に適応できる。
- 参考スコア(独自算出の注目度): 32.89577715124546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human activity recognition (HAR) has been playing an increasingly important
role in various domains such as healthcare, security monitoring, and metaverse
gaming. Though numerous HAR methods based on computer vision have been
developed to show prominent performance, they still suffer from poor robustness
in adverse visual conditions in particular low illumination, which motivates
WiFi-based HAR to serve as a good complementary modality. Existing solutions
using WiFi and vision modalities rely on massive labeled data that are very
cumbersome to collect. In this paper, we propose a novel unsupervised
multimodal HAR solution, MaskFi, that leverages only unlabeled video and WiFi
activity data for model training. We propose a new algorithm, masked
WiFi-vision modeling (MI2M), that enables the model to learn cross-modal and
single-modal features by predicting the masked sections in representation
learning. Benefiting from our unsupervised learning procedure, the network
requires only a small amount of annotated data for finetuning and can adapt to
the new environment with better performance. We conduct extensive experiments
on two WiFi-vision datasets collected in-house, and our method achieves human
activity recognition and human identification in terms of both robustness and
accuracy.
- Abstract(参考訳): ヒューマンアクティビティ認識(har)は、医療、セキュリティ監視、メタバースゲームなど様々な分野において、ますます重要な役割を担っている。
コンピュータビジョンに基づく多くのHAR法が顕著な性能を示すために開発されているが、Wi-FiベースのHARを優れた相補的モダリティとして機能させる動機となる、特に低照度における悪い視覚条件の頑健さに悩まされている。
WiFiとビジョンモダリティを使った既存のソリューションは、収集が非常に困難である大量のラベル付きデータに依存している。
本稿では,教師なしマルチモーダルharソリューションであるmaskfiを提案し,ラベルなしビデオとwifiアクティビティデータのみをモデルトレーニングに活用する。
そこで我々は,表現学習において,マスク付き区間を予測することにより,モダルと単一モードの特徴を学習できる新しいアルゴリズムMI2Mを提案する。
教師なしの学習手順の恩恵を受け、ネットワークは微調整のために少量の注釈付きデータしか必要とせず、より良いパフォーマンスで新しい環境に適応できる。
社内で収集した2つのwi-fi-visionデータセットについて広範な実験を行い,ロバスト性と正確性の観点から,人間行動認識と人間同定を実現する。
関連論文リスト
- ViFi-ReID: A Two-Stream Vision-WiFi Multimodal Approach for Person Re-identification [3.3743041904085125]
人物再識別(ReID)は、安全検査、人員計数などにおいて重要な役割を担っている。
現在のReIDアプローチのほとんどは、主に目的条件の影響を受けやすい画像から特徴を抽出する。
我々は、Wi-Fi信号のチャネル状態情報(CSI)を介して歩行者からの歩行情報をキャプチャすることで、広く利用可能なルータをセンサデバイスとして活用する。
論文 参考訳(メタデータ) (2024-10-13T15:34:11Z) - MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
HAR(Human Activity Recognition)は、医療、スポーツ、フィットネス、セキュリティなど、幅広い分野で応用されているAIの長年の問題である。
本研究では,HAR 性能を向上させるため,総合的な Fitness Multimodal Activity データセット (FiMAD) を導入する。
MM-Fit,myoGym, MotionSense, MHEALTH などの実HARデータセット上で,FiMAD で事前学習した分類器の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-06-06T08:42:36Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - GaitFi: Robust Device-Free Human Identification via WiFi and Vision
Multimodal Learning [33.89340087471202]
本稿では,WiFi信号とビデオを利用したマルチモーダル歩行認識手法GaitFiを提案する。
GaitFiでは、WiFiのマルチパス伝搬を反映したチャネル状態情報(CSI)が収集され、人間の視線を捉え、ビデオはカメラによってキャプチャされる。
本稿では,ロバストな歩行情報を学習するために,バックボーンネットワークとして軽量残差畳み込みネットワーク(LRCN)を提案し,さらに2ストリームのGaitFiを提案する。
GaitFiが最先端の歩行認識より優れていることを示す実験が実世界で実施されている
論文 参考訳(メタデータ) (2022-08-30T15:07:43Z) - WiFi-based Spatiotemporal Human Action Perception [53.41825941088989]
SNN(End-to-end WiFi signal Neural Network)は、Wi-Fiのみのセンシングを可能にするために提案されている。
特に、3D畳み込みモジュールはWiFi信号の時間的連続性を探索することができ、特徴自己保持モジュールは支配的な特徴を明示的に維持することができる。
論文 参考訳(メタデータ) (2022-06-20T16:03:45Z) - A Wireless-Vision Dataset for Privacy Preserving Human Activity
Recognition [53.41825941088989]
アクティビティ認識の堅牢性を改善するため,WiNN(WiFi-based and video-based neural network)が提案されている。
以上の結果から,WiViデータセットは一次需要を満足し,パイプライン内の3つのブランチはすべて,80%以上のアクティビティ認識精度を維持していることがわかった。
論文 参考訳(メタデータ) (2022-05-24T10:49:11Z) - Unsupervised Person Re-Identification with Wireless Positioning under
Weak Scene Labeling [131.18390399368997]
本稿では、弱いシーンラベリングの下で、視覚データと無線位置決めトラジェクトリの両方を用いて、教師なしの人物再識別を探索することを提案する。
具体的には、視覚データと無線情報の相補性をモデル化した、新しい教師なしマルチモーダルトレーニングフレームワーク(UMTF)を提案する。
我々のUMTFには、MMDA(Multimodal Data Association Strategy)とMMGN(Multimodal Graph Neural Network)が含まれている。
論文 参考訳(メタデータ) (2021-10-29T08:25:44Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Self-Supervised WiFi-Based Activity Recognition [3.4473723375416188]
屋内環境における受動的活動認識のためのWi-Fiデバイスから微細な物理層情報を抽出する。
自己監督型コントラスト学習による活動認識性能の向上を提案する。
WiFiによる活動認識のタスクにおいて,マクロ平均F1スコアの17.7%の増加が観察された。
論文 参考訳(メタデータ) (2021-04-19T06:40:21Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。