Fugu-MT 論文翻訳(概要): MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition

論文の概要: MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition

arxiv url: http://arxiv.org/abs/2406.03857v1
Date: Thu, 6 Jun 2024 08:42:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 15:49:43.745337
Title: MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition
Title（参考訳）: MuJo: ヒューマンアクティビティ認識のためのマルチモーダル共同特徴空間学習
Authors: Stefan Gerd Fritsch, Cennet Oguz, Vitor Fortes Rey, Lala Ray, Maximilian Kiefer-Emmanouilidis, Paul Lukowicz,
Abstract要約: 人間活動認識は、幅広い分野で応用されているAIの長年の問題である。マルチモーダルコントラスト事前学習を用いて,HARの性能を異なるモードで向上する方法を示す。
参考スコア（独自算出の注目度）: 2.7532797256542403
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human Activity Recognition is a longstanding problem in AI with applications in a broad range of areas: from healthcare, sports and fitness, security, and human computer interaction to robotics. The performance of HAR in real-world settings is strongly dependent on the type and quality of the input signal that can be acquired. Given an unobstructed, high-quality camera view of a scene, computer vision systems, in particular in conjunction with foundational models (e.g., CLIP), can today fairly reliably distinguish complex activities. On the other hand, recognition using modalities such as wearable sensors (which are often more broadly available, e.g, in mobile phones and smartwatches) is a more difficult problem, as the signals often contain less information and labeled training data is more difficult to acquire. In this work, we show how we can improve HAR performance across different modalities using multimodal contrastive pretraining. Our approach MuJo (Multimodal Joint Feature Space Learning), learns a multimodal joint feature space with video, language, pose, and IMU sensor data. The proposed approach combines contrastive and multitask learning methods and analyzes different multitasking strategies for learning a compact shared representation. A large dataset with parallel video, language, pose, and sensor data points is also introduced to support the research, along with an analysis of the robustness of the multimodal joint space for modal-incomplete and low-resource data. On the MM-Fit dataset, our model achieves an impressive Macro F1-Score of up to 0.992 with only 2% of the train data and 0.999 when using all available training data for classification tasks. Moreover, in the scenario where the MM-Fit dataset is unseen, we demonstrate a generalization performance of up to 0.638.
Abstract（参考訳）: 人間活動認識は、医療、スポーツ、フィットネス、セキュリティ、人間のコンピュータインタラクションからロボティクスまで、幅広い分野の応用において、AIの長年の課題である。実世界の設定におけるHARの性能は、取得可能な入力信号の種類と品質に強く依存する。特に基礎モデル(例えばCLIP)と組み合わせたコンピュータビジョンシステムは、現在、複雑なアクティビティをかなり確実に区別することができる。一方、ウェアラブルセンサ(携帯電話やスマートウォッチなど、より広範に利用できることが多い)などのモダリティを用いた認識は、信号に情報が少なく、ラベル付きトレーニングデータを取得するのが難しくなるため、より難しい問題である。本研究では,マルチモーダル・コントラッシブ・プレトレーニングを用いて,異なるモーダルをまたいだHAR性能を向上する方法を示す。我々のアプローチである MuJo (Multimodal Joint Feature Space Learning) は、ビデオ、言語、ポーズ、IMUセンサーデータによるマルチモーダルな特徴空間を学習する。提案手法は、コントラスト学習とマルチタスク学習を組み合わせて、コンパクトな共有表現を学習するための異なるマルチタスク戦略を解析する。並列ビデオ、言語、ポーズ、センサーデータポイントを備えた大規模なデータセットも導入され、モーダル不完全および低リソースデータに対するマルチモーダルジョイント空間のロバスト性の解析が支援された。 MM-Fitデータセットでは,列車データの2%と0.999で最大0.992のマクロF1スコアを達成した。さらに,MM-Fitデータセットが見えないシナリオでは,最大0.638の一般化性能を示す。

関連論文リスト

PIM: Physics-Informed Multi-task Pre-training for Improving Inertial Sensor-Based Human Activity Recognition [4.503003860563811]
IMUに基づくヒューマンアクティビティ認識(HAR)のための物理インフォームドマルチタスク事前学習(PIM)フレームワークを提案する。 PIMは、人間の動作の基本的物理的側面の理解に基づいて、プレテキストタスクを生成する。マクロf1スコアの約10%の利得と,クラスごとのラベル付き例は2～8例に過ぎなかった。
論文参考訳（メタデータ） (2025-03-23T08:16:01Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs [9.570759294459629]
我々は,制限データの問題に対処するために,新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークアプローチであるMulti$3$Netを提案する。本手法はウェアラブルHAR性能の向上,特に微妙な活動の認識を目的としている。
論文参考訳（メタデータ） (2024-06-03T13:28:42Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
MaskFi: Unsupervised Learning of WiFi and Vision Representations for Multimodal Human Activity Recognition [32.89577715124546]
我々は、未ラベルのビデオとWiFiのアクティビティデータのみをモデルトレーニングに活用する、新しい教師なしマルチモーダルHARソリューションMaskFiを提案する。教師なしの学習手順から恩恵を受けるため、ネットワークは微調整のために少量の注釈付きデータしか必要とせず、より良いパフォーマンスで新しい環境に適応できる。
論文参考訳（メタデータ） (2024-02-29T15:27:55Z)
Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。 MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-02T14:18:11Z)
Contrastive Left-Right Wearable Sensors (IMUs) Consistency Matching for HAR [0.0]
変換なしに、実際のデータを自己教師型学習にどのように使用できるかを示す。我々のアプローチには、2つの異なるセンサーのコントラストマッチングが含まれる。我々はオポチュニティとMM-Fitデータセットに対するアプローチを検証した。
論文参考訳（メタデータ） (2023-11-21T15:31:16Z)
Efficient Adaptive Human-Object Interaction Detection with Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。 ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文参考訳（メタデータ） (2023-09-07T13:10:06Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity Recognition [6.0306313759213275]
本稿では,RGBビデオとIMUセンサの機能を効果的に組み合わせたマルチモーダルフレームワークを提案する。最初の段階では,各入力エンコーダが特徴を効果的に抽出することを学ぶ。ビデオのみに比べて22%,11%,MMActデータセットでは20%,12%の大幅な改善が見られた。
論文参考訳（メタデータ） (2022-11-08T15:48:44Z)
Progressive Cross-modal Knowledge Distillation for Human Action Recognition [10.269019492921306]
本稿では,ウェアラブルセンサを用いたHAR問題を解決するための,新しいプログレッシブ・骨格-センサ間知識蒸留(PSKD)モデルを提案する。具体的には,教師(人間の骨格配列)と学生(時系列加速度計データ)の両方のデータを用いて,複数の教師モデルを構築した。
論文参考訳（メタデータ） (2022-08-17T06:06:03Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)
Families In Wild Multimedia: A Multimodal Database for Recognizing Kinship [63.27052967981546]
マルチタスク MM キンシップデータセットを初めて公開する。 FIW MMを構築するために,データを自動収集,注釈付け,作成する機構を開発した。結果は、改善の異なる領域で将来の研究を刺激するエッジケースを強調します。
論文参考訳（メタデータ） (2020-07-28T22:36:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。