論文の概要: MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2406.03857v1
- Date: Thu, 6 Jun 2024 08:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:49:43.745337
- Title: MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition
- Title(参考訳): MuJo: ヒューマンアクティビティ認識のためのマルチモーダル共同特徴空間学習
- Authors: Stefan Gerd Fritsch, Cennet Oguz, Vitor Fortes Rey, Lala Ray, Maximilian Kiefer-Emmanouilidis, Paul Lukowicz,
- Abstract要約: 人間活動認識は、幅広い分野で応用されているAIの長年の問題である。
マルチモーダルコントラスト事前学習を用いて,HARの性能を異なるモードで向上する方法を示す。
- 参考スコア(独自算出の注目度): 2.7532797256542403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human Activity Recognition is a longstanding problem in AI with applications in a broad range of areas: from healthcare, sports and fitness, security, and human computer interaction to robotics. The performance of HAR in real-world settings is strongly dependent on the type and quality of the input signal that can be acquired. Given an unobstructed, high-quality camera view of a scene, computer vision systems, in particular in conjunction with foundational models (e.g., CLIP), can today fairly reliably distinguish complex activities. On the other hand, recognition using modalities such as wearable sensors (which are often more broadly available, e.g, in mobile phones and smartwatches) is a more difficult problem, as the signals often contain less information and labeled training data is more difficult to acquire. In this work, we show how we can improve HAR performance across different modalities using multimodal contrastive pretraining. Our approach MuJo (Multimodal Joint Feature Space Learning), learns a multimodal joint feature space with video, language, pose, and IMU sensor data. The proposed approach combines contrastive and multitask learning methods and analyzes different multitasking strategies for learning a compact shared representation. A large dataset with parallel video, language, pose, and sensor data points is also introduced to support the research, along with an analysis of the robustness of the multimodal joint space for modal-incomplete and low-resource data. On the MM-Fit dataset, our model achieves an impressive Macro F1-Score of up to 0.992 with only 2% of the train data and 0.999 when using all available training data for classification tasks. Moreover, in the scenario where the MM-Fit dataset is unseen, we demonstrate a generalization performance of up to 0.638.
- Abstract(参考訳): 人間活動認識は、医療、スポーツ、フィットネス、セキュリティ、人間のコンピュータインタラクションからロボティクスまで、幅広い分野の応用において、AIの長年の課題である。
実世界の設定におけるHARの性能は、取得可能な入力信号の種類と品質に強く依存する。
特に基礎モデル(例えばCLIP)と組み合わせたコンピュータビジョンシステムは、現在、複雑なアクティビティをかなり確実に区別することができる。
一方、ウェアラブルセンサ(携帯電話やスマートウォッチなど、より広範に利用できることが多い)などのモダリティを用いた認識は、信号に情報が少なく、ラベル付きトレーニングデータを取得するのが難しくなるため、より難しい問題である。
本研究では,マルチモーダル・コントラッシブ・プレトレーニングを用いて,異なるモーダルをまたいだHAR性能を向上する方法を示す。
我々のアプローチである MuJo (Multimodal Joint Feature Space Learning) は、ビデオ、言語、ポーズ、IMUセンサーデータによるマルチモーダルな特徴空間を学習する。
提案手法は、コントラスト学習とマルチタスク学習を組み合わせて、コンパクトな共有表現を学習するための異なるマルチタスク戦略を解析する。
並列ビデオ、言語、ポーズ、センサーデータポイントを備えた大規模なデータセットも導入され、モーダル不完全および低リソースデータに対するマルチモーダルジョイント空間のロバスト性の解析が支援された。
MM-Fitデータセットでは,列車データの2%と0.999で最大0.992のマクロF1スコアを達成した。
さらに,MM-Fitデータセットが見えないシナリオでは,最大0.638の一般化性能を示す。
関連論文リスト
- Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - FedOpenHAR: Federated Multi-Task Transfer Learning for Sensor-Based
Human Activity Recognition [0.0]
本稿では,センサを用いた人間行動認識とデバイス位置識別の両課題に対して,フェデレート・トランスファー・ラーニングをマルチタスク方式で検討する。
OpenHARフレームワークは10個の小さなデータセットを含むモデルをトレーニングするために使用される。
タスク固有でパーソナライズされたフェデレーションモデルを用いたトランスファーラーニングとトレーニングにより、各クライアントを個別に訓練し、完全集中型アプローチよりも高い精度で学習した。
論文 参考訳(メタデータ) (2023-11-13T21:31:07Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity
Recognition [6.0306313759213275]
本稿では,RGBビデオとIMUセンサの機能を効果的に組み合わせたマルチモーダルフレームワークを提案する。
最初の段階では,各入力エンコーダが特徴を効果的に抽出することを学ぶ。
ビデオのみに比べて22%,11%,MMActデータセットでは20%,12%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2022-11-08T15:48:44Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Metric-based multimodal meta-learning for human movement identification
via footstep recognition [3.300376360949452]
マルチモーダル・フレームワークを導入した新しいメトリック・ベース・ラーニング・アプローチについて述べる。
我々は,全方位センサシステムから得られた低感度データから汎用表現を学習する。
本研究は,マルチセンサデータに対するメトリクスに基づくコントラスト学習手法を用いて,データ不足の影響を緩和する。
論文 参考訳(メタデータ) (2021-11-15T18:46:14Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。