論文の概要: C3T: Cross-modal Transfer Through Time for Human Action Recognition
- arxiv url: http://arxiv.org/abs/2407.16803v2
- Date: Thu, 7 Nov 2024 17:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 20:01:00.650419
- Title: C3T: Cross-modal Transfer Through Time for Human Action Recognition
- Title(参考訳): C3T:人間の行動認識のための時間的相互移動
- Authors: Abhi Kamboj, Anh Duy Nguyen, Minh Do,
- Abstract要約: 我々は、Unsupervised Modality Adaptation (UMA) という、未研究のクロスモーダル・トランスファー・セッティングを定式化し、探求する。
学生教師(ST)、コントラストアライメント(CA)、時間経由のクロスモーダルトランスファー(C3T)の3つの方法を開発した。
その結果、C3Tは少なくとも8%のマージンで最も頑健で高い性能を示し、時間的ノイズがあっても監督された設定性能に近づいた。
- 参考スコア(独自算出の注目度): 0.8192907805418581
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In order to unlock the potential of diverse sensors, we investigate a method to transfer knowledge between modalities using the structure of a unified multimodal representation space for Human Action Recognition (HAR). We formalize and explore an understudied cross-modal transfer setting we term Unsupervised Modality Adaptation (UMA), where the modality used in testing is not used in supervised training, i.e. zero labeled instances of the test modality are available during training. We develop three methods to perform UMA: Student-Teacher (ST), Contrastive Alignment (CA), and Cross-modal Transfer Through Time (C3T). Our extensive experiments on various camera+IMU datasets compare these methods to each other in the UMA setting, and to their empirical upper bound in the supervised setting. The results indicate C3T is the most robust and highest performing by at least a margin of 8%, and nears the supervised setting performance even in the presence of temporal noise. This method introduces a novel mechanism for aligning signals across time-varying latent vectors, extracted from the receptive field of temporal convolutions. Our findings suggest that C3T has significant potential for developing generalizable models for time-series sensor data, opening new avenues for multi-modal learning in various applications.
- Abstract(参考訳): 本研究では,多様なセンサの可能性を解き放つために,HAR(Human Action Recognition)のための統合マルチモーダル表現空間の構造を用いて,モダリティ間で知識を伝達する方法を検討する。
我々は、教師なしモダリティ適応(UMA)という、教師付きトレーニングにおいてテストで使用されるモダリティを使用せず、すなわち、トレーニング中にテストモダリティのラベル付きインスタンスがゼロとなる、未調査のクロスモーダル転送設定を定式化し、探索する。
学生教師(ST)、コントラストアライメント(CA)、時間経由のクロスモーダルトランスファー(C3T)の3つの方法を開発した。
様々なカメラ+IMUデータセットに関する広範な実験は、これらの手法をUMA設定における互いに比較し、教師付き設定における経験的上限と比較した。
その結果、C3Tは少なくとも8%のマージンで最も頑健で高い性能を示し、時間的ノイズがあっても監督された設定性能に近づいた。
時間的畳み込みの受容場から抽出した時間変化の潜伏ベクトル間で信号を整列する新しいメカニズムを導入する。
以上の結果から,C3Tは時系列センサデータに対する一般化可能なモデルの開発に有意な可能性を示唆し,様々なアプリケーションにおけるマルチモーダル学習への新たな道を開いた。
関連論文リスト
- FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification [56.925103708982164]
周波数領域からの新たな視点を示し、ダウンストリーム分類の利点として、グローバル、独立、コンパクトの3つを識別する。
本稿では,分類タスクにおける時系列のコントラスト学習に適した,軽量で効果的な周波数補充拡張(FreRA)を提案する。
FreRAは、時系列分類、異常検出、転送学習タスクにおいて、常に10つの主要なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-29T07:18:28Z) - Decomposing and Fusing Intra- and Inter-Sensor Spatio-Temporal Signal for Multi-Sensor Wearable Human Activity Recognition [12.359681612030682]
本稿では,モダリティ変数間の関係をよりよくモデル化するDecomposeWHARモデルを提案する。
この分解は、改良されたDepth Separable Convolutionを通じて、各センサ内変数の高次元表現を生成する。
我々のモデルは、広く使われている3つのWHARデータセットにおいて優れた性能を示し、最先端のモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-19T01:52:28Z) - SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。
トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文 参考訳(メタデータ) (2024-11-20T10:23:21Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping [12.442574943138794]
本稿では、点雲とRGB画像を利用して異常をローカライズする産業用マルチモーダル異常検出(AD)タスクについて検討する。
我々は,新しい軽量かつ高速なフレームワークを導入し,特徴を1つのモダリティからもう1つのモダリティへのマップを,名目標本上で学習する。
論文 参考訳(メタデータ) (2023-12-07T18:41:21Z) - Graph-Aware Contrasting for Multivariate Time-Series Classification [50.84488941336865]
既存のコントラスト学習手法は主に、時間的拡張とコントラスト技術による時間的一貫性を達成することに焦点を当てている。
MTSデータ間の空間的整合性を考慮したグラフ認識コントラストを提案する。
提案手法は,様々なMSS分類タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T02:35:22Z) - FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level
Gradient Calibration [89.4165092674947]
マルチモダリティ融合とマルチタスク学習は、3D自動運転シナリオにおいてトレンドになりつつある。
先行研究は、学習フレームワークを経験的な知識で手作業で調整し、それがサブオプティマに繋がる可能性がある。
そこで本稿では,最適化中のタスクやモダリティにまたがる,シンプルなマルチレベル勾配校正学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T12:50:15Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Transfer Learning for Autonomous Chatter Detection in Machining [0.9281671380673306]
大振幅のシャッター振動は加工過程において最も重要な現象の1つである。
業界全体でのチャット検出に機械学習を適用する上で、3つの課題が特定できる。
これら3つの課題は、移行学習の傘の下でグループ化することができる。
論文 参考訳(メタデータ) (2022-04-11T20:46:06Z) - Averaging Spatio-temporal Signals using Optimal Transport and Soft
Alignments [110.79706180350507]
Fr'teche は双対性を意味し, 時間的バレシェセンタを定義するために提案した損失が有効であることを示す。
手書き文字と脳画像データによる実験は、我々の理論的発見を裏付けるものである。
論文 参考訳(メタデータ) (2022-03-11T09:46:22Z) - Contrastive predictive coding for Anomaly Detection in Multi-variate
Time Series Data [6.463941665276371]
本稿では,MVTSデータにおける異常検出に向けて,TRL-CPC(Contrastive Predictive Coding)を用いた時系列表現学習を提案する。
まず,エンコーダ,自動回帰器,非線形変換関数を共同で最適化し,MVTSデータセットの表現を効果的に学習する。
論文 参考訳(メタデータ) (2022-02-08T04:25:29Z) - PSEUDo: Interactive Pattern Search in Multivariate Time Series with
Locality-Sensitive Hashing and Relevance Feedback [3.347485580830609]
PSEUDoは、マルチトラックシーケンシャルデータにおける視覚パターンを探索するための適応的機能学習技術である。
提案アルゴリズムは,サブ線形学習と推論時間を特徴とする。
我々は,PSEUDoの効率,精度,操縦性において優位性を示す。
論文 参考訳(メタデータ) (2021-04-30T13:00:44Z) - Deep ConvLSTM with self-attention for human activity decoding using
wearables [0.0]
本稿では,複数のセンサ時系列データの特徴を捉えつつ,重要な時間点を選択するディープニューラルネットワークアーキテクチャを提案する。
提案手法の有効性を,異なるデータサンプリング戦略にまたがって示すとともに,自己認識機構が大幅に改善したことを示す。
提案手法は、複数の身体センサからの人間の活動のより優れた復号化を、長期間にわたって行うことができる。
論文 参考訳(メタデータ) (2020-05-02T04:30:31Z) - 3DCFS: Fast and Robust Joint 3D Semantic-Instance Segmentation via
Coupled Feature Selection [46.922236354885]
本稿では,3DCFSと呼ばれる3Dポイント・クラウド・セグメンテーション・フレームワークを提案し,セグメンテーションとインスタンスセグメンテーションを共同で行う。
人間のシーン認識プロセスにインスパイアされた我々は、相互の意味的特徴と事例的特徴を適応的に選択・融合するCFSMという、新しい結合した特徴選択モジュールを設計する。
我々の3DCFSは、精度、速度、計算コストの点で、ベンチマークデータセットの最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-03-01T17:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。