論文の概要: Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2407.06628v1
- Date: Tue, 9 Jul 2024 07:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:56:02.875125
- Title: Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition
- Title(参考訳): エゴセントリックな行動認識のためのマスク付きビデオとボディーウーンIMUオートエンコーダ
- Authors: Mingfang Zhang, Yifei Huang, Ruicong Liu, Yoichi Sato,
- Abstract要約: 本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。
体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。
実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
- 参考スコア(独自算出の注目度): 24.217068565936117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compared with visual signals, Inertial Measurement Units (IMUs) placed on human limbs can capture accurate motion signals while being robust to lighting variation and occlusion. While these characteristics are intuitively valuable to help egocentric action recognition, the potential of IMUs remains under-explored. In this work, we present a novel method for action recognition that integrates motion data from body-worn IMUs with egocentric video. Due to the scarcity of labeled multimodal data, we design an MAE-based self-supervised pretraining method, obtaining strong multi-modal representations via modeling the natural correlation between visual and motion signals. To model the complex relation of multiple IMU devices placed across the body, we exploit the collaborative dynamics in multiple IMU devices and propose to embed the relative motion features of human joints into a graph structure. Experiments show our method can achieve state-of-the-art performance on multiple public datasets. The effectiveness of our MAE-based pretraining and graph-based IMU modeling are further validated by experiments in more challenging scenarios, including partially missing IMU devices and video quality corruption, promoting more flexible usages in the real world.
- Abstract(参考訳): 視覚信号と比較すると、人間の手足に装着された慣性計測ユニット(IMU)は、光の変動や閉塞に対して頑健さを保ちながら正確な運動信号を捉えることができる。
これらの特徴は、自我中心の行動認識を助けるのに直感的に有用であるが、IMUの潜在能力は未解明のままである。
本研究では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。
ラベル付きマルチモーダルデータの不足により、視覚信号と運動信号の自然な相関をモデル化し、強力なマルチモーダル表現を得るMAEベースの自己教師付き事前学習法を設計する。
体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を活用し、人間の関節の相対運動特性をグラフ構造に埋め込むことを提案する。
実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
MAEに基づく事前学習とグラフベースのIMUモデリングの有効性は、部分的に欠落したIMUデバイスやビデオ品質の劣化など、より困難なシナリオの実験によってさらに検証され、現実世界でのより柔軟な利用が促進される。
関連論文リスト
- Fusion and Cross-Modal Transfer for Zero-Shot Human Action Recognition [0.8192907805418581]
慣性測定ユニット(IMU)は人間の動きを理解するための有能な信号を提供する。
視覚と慣性の間で知識を伝達する手法について検討する。
論文 参考訳(メタデータ) (2024-07-23T19:06:44Z) - Adaptive Modality Balanced Online Knowledge Distillation for Brain-Eye-Computer based Dim Object Detection [7.135000735428783]
本稿では,脳-眼-コンピュータによる空中画像検出システムを構築した。
脳波画像データを用いた適応型モダリティバランスオンライン知識蒸留法(AMBOKD)を提案する。
実世界のシナリオにおける公開データセットとシステム検証実験により,本手法の有効性と優位性を実証した。
論文 参考訳(メタデータ) (2024-07-02T02:30:23Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs [9.570759294459629]
我々は,制限データの問題に対処するために,新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークアプローチであるMulti$3$Netを提案する。
本手法はウェアラブルHAR性能の向上,特に微妙な活動の認識を目的としている。
論文 参考訳(メタデータ) (2024-06-03T13:28:42Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。