論文の概要: Improving Out-of-distribution Human Activity Recognition via IMU-Video Cross-modal Representation Learning
- arxiv url: http://arxiv.org/abs/2507.13482v1
- Date: Thu, 17 Jul 2025 18:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.113589
- Title: Improving Out-of-distribution Human Activity Recognition via IMU-Video Cross-modal Representation Learning
- Title(参考訳): IMU- Video Cross-Modal Representation Learning によるアウト・オブ・ディストリビューション人間活動認識の改善
- Authors: Seyyed Saeid Cheshmi, Buyao Lyu, Thomas Lisko, Rajesh Rajamani, Robert A. McGovern, Yogatheesan Varatharajah,
- Abstract要約: ウェアラブル慣性センサーに基づくヒューマンアクティビティ認識(HAR)は,遠隔健康モニタリングにおいて重要な役割を担っている。
我々は,大規模未ラベルIMUビデオデータから表現を学習するための,クロスモーダルな自己教師型事前学習手法を提案する。
以上の結果から,提案手法は現状のIMU-ビデオ事前訓練手法よりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 3.177649348456073
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human Activity Recognition (HAR) based on wearable inertial sensors plays a critical role in remote health monitoring. In patients with movement disorders, the ability to detect abnormal patient movements in their home environments can enable continuous optimization of treatments and help alert caretakers as needed. Machine learning approaches have been proposed for HAR tasks using Inertial Measurement Unit (IMU) data; however, most rely on application-specific labels and lack generalizability to data collected in different environments or populations. To address this limitation, we propose a new cross-modal self-supervised pretraining approach to learn representations from large-sale unlabeled IMU-video data and demonstrate improved generalizability in HAR tasks on out of distribution (OOD) IMU datasets, including a dataset collected from patients with Parkinson's disease. Specifically, our results indicate that the proposed cross-modal pretraining approach outperforms the current state-of-the-art IMU-video pretraining approach and IMU-only pretraining under zero-shot and few-shot evaluations. Broadly, our study provides evidence that in highly dynamic data modalities, such as IMU signals, cross-modal pretraining may be a useful tool to learn generalizable data representations. Our software is available at https://github.com/scheshmi/IMU-Video-OOD-HAR.
- Abstract(参考訳): ウェアラブル慣性センサーに基づくヒューマンアクティビティ認識(HAR)は,遠隔健康モニタリングにおいて重要な役割を担っている。
運動障害のある患者では、自宅の環境の中で異常な患者の動きを検出する能力は、治療の継続的な最適化を可能にし、介護者に必要に応じて警告するのに役立つ。
慣性測定ユニット(IMU)データを用いたHARタスクに対する機械学習アプローチが提案されているが、ほとんどの場合、アプリケーション固有のラベルに依存し、異なる環境や集団で収集されたデータに対する一般化性に欠ける。
この制限に対処するため、我々は、大規模未ラベルIMUビデオデータから表現を学習し、パーキンソン病患者から収集したデータセットを含む、分布外(OOD)IMUデータセット上でのHARタスクの一般化性の向上を示す、新しいクロスモーダル自己教師付き事前学習手法を提案する。
具体的には,提案手法は,現在最先端のIMU-ビデオ事前訓練法と,ゼロショットおよび少数ショット評価によるIMU-ビデオ事前訓練法より優れていることを示す。
我々の研究は、IMU信号のような非常にダイナミックなデータモダリティにおいて、クロスモーダル事前学習が一般化可能なデータ表現を学ぶのに有用なツールであることを示す。
私たちのソフトウェアはhttps://github.com/scheshmi/IMU-Video-OOD-HARで利用可能です。
関連論文リスト
- Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - C3T: Cross-modal Transfer Through Time for Sensor-based Human Activity Recognition [7.139150172150715]
C3T(Cross-modal Transfer Through Time)を紹介する。
C3Tは、動的センサーデータを処理するために、アライメント中の時間情報を保存する。
様々なカメラ+IMUデータセットを用いた実験により、C3TはUMAの既存の手法を少なくとも8%上回っていることが示された。
論文 参考訳(メタデータ) (2024-07-23T19:06:44Z) - Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。
体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。
実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文 参考訳(メタデータ) (2024-07-09T07:53:16Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Multimodal Contrastive Learning with Hard Negative Sampling for Human
Activity Recognition [14.88934924520362]
HAR(Human Activity Recognition)システムは、ビジョンとユビキタスコンピューティングコミュニティによって広く研究されている。
骨格とIMUデータペアのハードネガティブサンプリング損失を有するマルチモーダルHARのハードネガティブサンプリング法を提案する。
我々は,HARタスクの強い特徴表現を学習するためのアプローチの頑健さと,限られたデータ設定上での頑健さを実証する。
論文 参考訳(メタデータ) (2023-09-03T20:00:37Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - BenchMD: A Benchmark for Unified Learning on Medical Images and Sensors [8.695342954247606]
アーキテクチャやトレーニング技術を含む,統一的でモダリティに依存しない手法が,さまざまな医療タスクでどのように機能するかをテストするベンチマークであるBenchMDを提示する。
その結果,統一的な学習手法がすべてのモダリティに対して高い性能を達成できないことが示され,ベンチマークに十分な改善の余地が残されている。
論文 参考訳(メタデータ) (2023-04-17T17:59:26Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - In-Bed Human Pose Estimation from Unseen and Privacy-Preserving Image
Domains [22.92165116962952]
ベッド内の人間の姿勢推定は、医療状況の評価において潜在的な価値を持つ重要な健康関連指標を提供する。
本稿では,マルチモーダル条件変分オートエンコーダ(MC-VAE)を提案する。
本研究は, 身体位置が利用可能なモダリティから効果的に認識できることを示し, ベースラインモデルと同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2021-11-30T04:56:16Z) - Self-supervised transfer learning of physiological representations from
free-living wearable data [12.863826659440026]
意味ラベルのない活動・心拍(HR)信号を用いた新しい自己教師型表現学習法を提案する。
我々は、我々のモデルを、最大の自由生活複合センシングデータセット(手首加速度計とウェアラブル心電図データによる280k時間)で評価する。
論文 参考訳(メタデータ) (2020-11-18T23:21:34Z) - IMUTube: Automatic Extraction of Virtual on-body Accelerometry from
Video for Human Activity Recognition [12.91206329972949]
IMUTubeは、人間の活動の映像をIMUデータの仮想ストリームに変換する自動処理パイプラインである。
これらの仮想IMUストリームは、人体の様々な場所で加速度計を表現している。
本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-29T21:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。