論文の概要: Fusion and Cross-Modal Transfer for Zero-Shot Human Action Recognition
- arxiv url: http://arxiv.org/abs/2407.16803v1
- Date: Tue, 23 Jul 2024 19:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:32:29.630452
- Title: Fusion and Cross-Modal Transfer for Zero-Shot Human Action Recognition
- Title(参考訳): ゼロショット人行動認識のための融合とクロスモーダル転送
- Authors: Abhi Kamboj, Anh Duy Nguyen, Minh Do,
- Abstract要約: 慣性測定ユニット(IMU)は人間の動きを理解するための有能な信号を提供する。
視覚と慣性の間で知識を伝達する手法について検討する。
- 参考スコア(独自算出の注目度): 0.8192907805418581
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite living in a multi-sensory world, most AI models are limited to textual and visual interpretations of human motion and behavior. Inertial measurement units (IMUs) provide a salient signal to understand human motion; however, they are challenging to use due to their uninterpretability and scarcity of their data. We investigate a method to transfer knowledge between visual and inertial modalities using the structure of an informative joint representation space designed for human action recognition (HAR). We apply the resulting Fusion and Cross-modal Transfer (FACT) method to a novel setup, where the model does not have access to labeled IMU data during training and is able to perform HAR with only IMU data during testing. Extensive experiments on a wide range of RGB-IMU datasets demonstrate that FACT significantly outperforms existing methods in zero-shot cross-modal transfer.
- Abstract(参考訳): マルチ感覚の世界に生きているにもかかわらず、ほとんどのAIモデルは、人間の動きと行動のテキスト的および視覚的解釈に限られている。
慣性測定ユニット(IMU)は人間の動作を理解するための有能な信号を提供するが、データの解釈不能と不足のため使用が困難である。
本研究では,人行動認識(HAR)のための情報的共同表現空間の構造を用いて,視覚的・慣性的モダリティ間の知識伝達手法について検討する。
得られたFusion and Cross-modal Transfer (FACT) 法を、トレーニング中にラベル付きIMUデータにアクセスできず、テスト中にのみIMUデータでHARを実行することができる新しいセットアップに適用する。
広範囲なRGB-IMUデータセットに対する大規模な実験により、FACTはゼロショットのクロスモーダル転送において既存の手法よりも大幅に優れていることが示された。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping [12.442574943138794]
本稿では、点雲とRGB画像を利用して異常をローカライズする産業用マルチモーダル異常検出(AD)タスクについて検討する。
我々は,新しい軽量かつ高速なフレームワークを導入し,特徴を1つのモダリティからもう1つのモダリティへのマップを,名目標本上で学習する。
論文 参考訳(メタデータ) (2023-12-07T18:41:21Z) - FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level
Gradient Calibration [89.4165092674947]
マルチモダリティ融合とマルチタスク学習は、3D自動運転シナリオにおいてトレンドになりつつある。
先行研究は、学習フレームワークを経験的な知識で手作業で調整し、それがサブオプティマに繋がる可能性がある。
そこで本稿では,最適化中のタスクやモダリティにまたがる,シンプルなマルチレベル勾配校正学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T12:50:15Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Transfer Learning for Autonomous Chatter Detection in Machining [0.9281671380673306]
大振幅のシャッター振動は加工過程において最も重要な現象の1つである。
業界全体でのチャット検出に機械学習を適用する上で、3つの課題が特定できる。
これら3つの課題は、移行学習の傘の下でグループ化することができる。
論文 参考訳(メタデータ) (2022-04-11T20:46:06Z) - 3DCFS: Fast and Robust Joint 3D Semantic-Instance Segmentation via
Coupled Feature Selection [46.922236354885]
本稿では,3DCFSと呼ばれる3Dポイント・クラウド・セグメンテーション・フレームワークを提案し,セグメンテーションとインスタンスセグメンテーションを共同で行う。
人間のシーン認識プロセスにインスパイアされた我々は、相互の意味的特徴と事例的特徴を適応的に選択・融合するCFSMという、新しい結合した特徴選択モジュールを設計する。
我々の3DCFSは、精度、速度、計算コストの点で、ベンチマークデータセットの最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-03-01T17:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。