論文の概要: C3T: Cross-modal Transfer Through Time for Human Action Recognition
- arxiv url: http://arxiv.org/abs/2407.16803v2
- Date: Thu, 7 Nov 2024 17:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:01:00.650419
- Title: C3T: Cross-modal Transfer Through Time for Human Action Recognition
- Title(参考訳): C3T:人間の行動認識のための時間的相互移動
- Authors: Abhi Kamboj, Anh Duy Nguyen, Minh Do,
- Abstract要約: 我々は、Unsupervised Modality Adaptation (UMA) という、未研究のクロスモーダル・トランスファー・セッティングを定式化し、探求する。
学生教師(ST)、コントラストアライメント(CA)、時間経由のクロスモーダルトランスファー(C3T)の3つの方法を開発した。
その結果、C3Tは少なくとも8%のマージンで最も頑健で高い性能を示し、時間的ノイズがあっても監督された設定性能に近づいた。
- 参考スコア(独自算出の注目度): 0.8192907805418581
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In order to unlock the potential of diverse sensors, we investigate a method to transfer knowledge between modalities using the structure of a unified multimodal representation space for Human Action Recognition (HAR). We formalize and explore an understudied cross-modal transfer setting we term Unsupervised Modality Adaptation (UMA), where the modality used in testing is not used in supervised training, i.e. zero labeled instances of the test modality are available during training. We develop three methods to perform UMA: Student-Teacher (ST), Contrastive Alignment (CA), and Cross-modal Transfer Through Time (C3T). Our extensive experiments on various camera+IMU datasets compare these methods to each other in the UMA setting, and to their empirical upper bound in the supervised setting. The results indicate C3T is the most robust and highest performing by at least a margin of 8%, and nears the supervised setting performance even in the presence of temporal noise. This method introduces a novel mechanism for aligning signals across time-varying latent vectors, extracted from the receptive field of temporal convolutions. Our findings suggest that C3T has significant potential for developing generalizable models for time-series sensor data, opening new avenues for multi-modal learning in various applications.
- Abstract(参考訳): 本研究では,多様なセンサの可能性を解き放つために,HAR(Human Action Recognition)のための統合マルチモーダル表現空間の構造を用いて,モダリティ間で知識を伝達する方法を検討する。
我々は、教師なしモダリティ適応(UMA)という、教師付きトレーニングにおいてテストで使用されるモダリティを使用せず、すなわち、トレーニング中にテストモダリティのラベル付きインスタンスがゼロとなる、未調査のクロスモーダル転送設定を定式化し、探索する。
学生教師(ST)、コントラストアライメント(CA)、時間経由のクロスモーダルトランスファー(C3T)の3つの方法を開発した。
様々なカメラ+IMUデータセットに関する広範な実験は、これらの手法をUMA設定における互いに比較し、教師付き設定における経験的上限と比較した。
その結果、C3Tは少なくとも8%のマージンで最も頑健で高い性能を示し、時間的ノイズがあっても監督された設定性能に近づいた。
時間的畳み込みの受容場から抽出した時間変化の潜伏ベクトル間で信号を整列する新しいメカニズムを導入する。
以上の結果から,C3Tは時系列センサデータに対する一般化可能なモデルの開発に有意な可能性を示唆し,様々なアプリケーションにおけるマルチモーダル学習への新たな道を開いた。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping [12.442574943138794]
本稿では、点雲とRGB画像を利用して異常をローカライズする産業用マルチモーダル異常検出(AD)タスクについて検討する。
我々は,新しい軽量かつ高速なフレームワークを導入し,特徴を1つのモダリティからもう1つのモダリティへのマップを,名目標本上で学習する。
論文 参考訳(メタデータ) (2023-12-07T18:41:21Z) - FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level
Gradient Calibration [89.4165092674947]
マルチモダリティ融合とマルチタスク学習は、3D自動運転シナリオにおいてトレンドになりつつある。
先行研究は、学習フレームワークを経験的な知識で手作業で調整し、それがサブオプティマに繋がる可能性がある。
そこで本稿では,最適化中のタスクやモダリティにまたがる,シンプルなマルチレベル勾配校正学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T12:50:15Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Transfer Learning for Autonomous Chatter Detection in Machining [0.9281671380673306]
大振幅のシャッター振動は加工過程において最も重要な現象の1つである。
業界全体でのチャット検出に機械学習を適用する上で、3つの課題が特定できる。
これら3つの課題は、移行学習の傘の下でグループ化することができる。
論文 参考訳(メタデータ) (2022-04-11T20:46:06Z) - 3DCFS: Fast and Robust Joint 3D Semantic-Instance Segmentation via
Coupled Feature Selection [46.922236354885]
本稿では,3DCFSと呼ばれる3Dポイント・クラウド・セグメンテーション・フレームワークを提案し,セグメンテーションとインスタンスセグメンテーションを共同で行う。
人間のシーン認識プロセスにインスパイアされた我々は、相互の意味的特徴と事例的特徴を適応的に選択・融合するCFSMという、新しい結合した特徴選択モジュールを設計する。
我々の3DCFSは、精度、速度、計算コストの点で、ベンチマークデータセットの最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-03-01T17:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。