論文の概要: Scaling Human Activity Recognition: A Comparative Evaluation of Synthetic Data Generation and Augmentation Techniques
- arxiv url: http://arxiv.org/abs/2506.07612v1
- Date: Mon, 09 Jun 2025 10:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.906027
- Title: Scaling Human Activity Recognition: A Comparative Evaluation of Synthetic Data Generation and Augmentation Techniques
- Title(参考訳): 人間の活動認識のスケーリング:合成データ生成と拡張技術の比較評価
- Authors: Zikang Leng, Archith Iyer, Thomas Plötz,
- Abstract要約: HAR(Human Activity Recognition)は、ラベル付きデータセットの不足によってしばしば制限される。
近年, 仮想慣性測定ユニット(IMU)データの生成について, クロスモーダル転送による検討が行われている。
- 参考スコア(独自算出の注目度): 1.0712226955584796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human activity recognition (HAR) is often limited by the scarcity of labeled datasets due to the high cost and complexity of real-world data collection. To mitigate this, recent work has explored generating virtual inertial measurement unit (IMU) data via cross-modality transfer. While video-based and language-based pipelines have each shown promise, they differ in assumptions and computational cost. Moreover, their effectiveness relative to traditional sensor-level data augmentation remains unclear. In this paper, we present a direct comparison between these two virtual IMU generation approaches against classical data augmentation techniques. We construct a large-scale virtual IMU dataset spanning 100 diverse activities from Kinetics-400 and simulate sensor signals at 22 body locations. The three data generation strategies are evaluated on benchmark HAR datasets (UTD-MHAD, PAMAP2, HAD-AW) using four popular models. Results show that virtual IMU data significantly improves performance over real or augmented data alone, particularly under limited-data conditions. We offer practical guidance on choosing data generation strategies and highlight the distinct advantages and disadvantages of each approach.
- Abstract(参考訳): ヒューマンアクティビティ認識(HAR)は、実世界のデータ収集のコストと複雑さのため、ラベル付きデータセットの不足によって制限されることが多い。
これを緩和するために、最近の研究は、相互モダリティ転送による仮想慣性測定単位(IMU)データの生成について検討している。
ビデオベースのパイプラインと言語ベースのパイプラインはそれぞれ有望であるが、仮定と計算コストが異なる。
さらに,従来のセンサレベルのデータ拡張に対する有効性は明らかになっていない。
本稿では,これら2つの仮想IMU生成手法と古典的データ拡張手法の直接比較を行う。
我々は、Kinetics-400から100の多様な活動にまたがる大規模な仮想IMUデータセットを構築し、22の身体位置でセンサー信号をシミュレートした。
ベンチマークHARデータセット(UTD-MHAD, PAMAP2, HAD-AW)を4つの一般的なモデルを用いて評価した。
結果から,仮想IMUデータは実データや拡張データのみよりも,特に限られたデータ条件下では性能が著しく向上することがわかった。
データ生成戦略の選択に関する実践的なガイダンスを提供し、それぞれのアプローチの明確な利点とデメリットを強調します。
関連論文リスト
- AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。
提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文 参考訳(メタデータ) (2025-06-08T16:43:05Z) - Leveraging Semi-Supervised Learning to Enhance Data Mining for Image Classification under Limited Labeled Data [35.431340001608476]
従来のデータマイニング手法は、大規模で高次元で複雑なデータに直面すると不十分である。
本研究では,ラベルのないデータを利用するアルゴリズムの能力向上を目的とした,半教師付き学習手法を提案する。
具体的には、自己学習法を採用し、画像の特徴抽出と分類のための畳み込みニューラルネットワーク(CNN)と組み合わせる。
論文 参考訳(メタデータ) (2024-11-27T18:59:50Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based
Human Activity Recognition [0.19791587637442667]
クロスモーダリティ転送アプローチは、既存のデータセットを、ビデオのようなソースモーダリティからターゲットモーダリティ(IMU)に変換する。
我々はIMUGPTに2つの新しい拡張を導入し、実用的なHARアプリケーションシナリオの利用を拡大した。
我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
論文 参考訳(メタデータ) (2024-02-01T22:37:33Z) - Generating Virtual On-body Accelerometer Data from Virtual Textual
Descriptions for Human Activity Recognition [0.6445605125467573]
本稿では,動作モデル合成,T2M-GPT,後に仮想IMUデータストリームに変換することで,人間の3次元動作シーケンスを生成する自動パイプラインを提案する。
我々は3つのHARデータセット(RealWorld、PAMAP2、USC-HAD)にアプローチをベンチマークし、我々の新しいアプローチを用いて生成された仮想IMUトレーニングデータを使用することで、HARモデルの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-05-04T22:14:44Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Transformer Networks for Data Augmentation of Human Physical Activity
Recognition [61.303828551910634]
Recurrent Generative Adrial Networks (RGAN)のような最先端技術モデルは、リアルな合成データを生成するために使用される。
本稿では,データにグローバルな注意を払っているトランスフォーマーベースの生成敵ネットワークを,PAMAP2とリアルワールドヒューマンアクティビティ認識データセットでRGANと比較する。
論文 参考訳(メタデータ) (2021-09-02T16:47:29Z) - IMUTube: Automatic Extraction of Virtual on-body Accelerometry from
Video for Human Activity Recognition [12.91206329972949]
IMUTubeは、人間の活動の映像をIMUデータの仮想ストリームに変換する自動処理パイプラインである。
これらの仮想IMUストリームは、人体の様々な場所で加速度計を表現している。
本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-29T21:50:38Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - A Deep Learning Method for Complex Human Activity Recognition Using
Virtual Wearable Sensors [22.923108537119685]
センサに基づくヒューマンアクティビティ認識(HAR)は、現在、複数のアプリケーション領域で研究ホットスポットとなっている。
本研究では,実シーンにおける複雑なHARの深層学習に基づく新しい手法を提案する。
提案手法は驚くほど数イテレーションで収束し、実際のIMUデータセット上で91.15%の精度が得られる。
論文 参考訳(メタデータ) (2020-03-04T03:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。