論文の概要: C3T: Cross-modal Transfer Through Time for Sensor-based Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2407.16803v3
- Date: Mon, 09 Jun 2025 15:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:08.740265
- Title: C3T: Cross-modal Transfer Through Time for Sensor-based Human Activity Recognition
- Title(参考訳): C3T:センサによる人間活動認識のための時間的相互移動
- Authors: Abhi Kamboj, Anh Duy Nguyen, Minh N. Do,
- Abstract要約: C3T(Cross-modal Transfer Through Time)を紹介する。
C3Tは、動的センサーデータを処理するために、アライメント中の時間情報を保存する。
様々なカメラ+IMUデータセットを用いた実験により、C3TはUMAの既存の手法を少なくとも8%上回っていることが示された。
- 参考スコア(独自算出の注目度): 7.139150172150715
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In order to unlock the potential of diverse sensors, we investigate a method to transfer knowledge between time-series modalities using a multimodal \textit{temporal} representation space for Human Activity Recognition (HAR). Specifically, we explore the setting where the modality used in testing has no labeled data during training, which we refer to as Unsupervised Modality Adaptation (UMA). We categorize existing UMA approaches as Student-Teacher or Contrastive Alignment methods. These methods typically compress continuous-time data samples into single latent vectors during alignment, inhibiting their ability to transfer temporal information through real-world temporal distortions. To address this, we introduce Cross-modal Transfer Through Time (C3T), which preserves temporal information during alignment to handle dynamic sensor data better. C3T achieves this by aligning a set of temporal latent vectors across sensing modalities. Our extensive experiments on various camera+IMU datasets demonstrate that C3T outperforms existing methods in UMA by at least 8% in accuracy and shows superior robustness to temporal distortions such as time-shift, misalignment, and dilation. Our findings suggest that C3T has significant potential for developing generalizable models for time-series sensor data, opening new avenues for various multimodal applications.
- Abstract(参考訳): 多様なセンサの可能性を解き放つために,HAR(Human Activity Recognition)のためのマルチモーダルな「textit{temporal}」表現空間を用いて時系列モダリティ間で知識を伝達する方法を検討する。
具体的には、テストで使用されるモダリティがトレーニング中にラベル付きデータを持たない状況について、Unsupervised Modality Adaptation (UMA) と呼ぶ。
既存のUMAアプローチを,学生・教師・コントラストアライメント手法に分類する。
これらの手法は通常、アライメント中に連続時間データサンプルを単一の潜在ベクトルに圧縮し、現実世界の時間歪みを通じて時間情報を伝達する能力を阻害する。
これを解決するために、動的センサデータを扱うために、アライメント中の時間情報を保存するクロスモーダルトランスファー・スルー・タイム(C3T)を導入する。
C3Tは、感覚モーダルをまたいだ時間潜在ベクトルの集合を整列することでこれを達成している。
様々なカメラ+IMUデータセットに関する広範な実験により、C3TはUMAの既存手法を少なくとも8%精度で上回り、時間シフト、不整合、拡張などの時間歪みに対して優れた堅牢性を示すことが示された。
以上の結果から,C3Tは時系列センサデータに対する一般化可能なモデルの開発に有意な可能性を示唆し,様々なマルチモーダルアプリケーションへの新たな道を開いた。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping [12.442574943138794]
本稿では、点雲とRGB画像を利用して異常をローカライズする産業用マルチモーダル異常検出(AD)タスクについて検討する。
我々は,新しい軽量かつ高速なフレームワークを導入し,特徴を1つのモダリティからもう1つのモダリティへのマップを,名目標本上で学習する。
論文 参考訳(メタデータ) (2023-12-07T18:41:21Z) - FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level
Gradient Calibration [89.4165092674947]
マルチモダリティ融合とマルチタスク学習は、3D自動運転シナリオにおいてトレンドになりつつある。
先行研究は、学習フレームワークを経験的な知識で手作業で調整し、それがサブオプティマに繋がる可能性がある。
そこで本稿では,最適化中のタスクやモダリティにまたがる,シンプルなマルチレベル勾配校正学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T12:50:15Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Transfer Learning for Autonomous Chatter Detection in Machining [0.9281671380673306]
大振幅のシャッター振動は加工過程において最も重要な現象の1つである。
業界全体でのチャット検出に機械学習を適用する上で、3つの課題が特定できる。
これら3つの課題は、移行学習の傘の下でグループ化することができる。
論文 参考訳(メタデータ) (2022-04-11T20:46:06Z) - 3DCFS: Fast and Robust Joint 3D Semantic-Instance Segmentation via
Coupled Feature Selection [46.922236354885]
本稿では,3DCFSと呼ばれる3Dポイント・クラウド・セグメンテーション・フレームワークを提案し,セグメンテーションとインスタンスセグメンテーションを共同で行う。
人間のシーン認識プロセスにインスパイアされた我々は、相互の意味的特徴と事例的特徴を適応的に選択・融合するCFSMという、新しい結合した特徴選択モジュールを設計する。
我々の3DCFSは、精度、速度、計算コストの点で、ベンチマークデータセットの最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-03-01T17:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。