論文の概要: Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity
Recognition
- arxiv url: http://arxiv.org/abs/2211.04331v1
- Date: Tue, 8 Nov 2022 15:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 16:48:17.157635
- Title: Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity
Recognition
- Title(参考訳): ヒューマンアクティビティ認識のためのマルチモーダルデータの多段階的特徴融合
- Authors: Hyeongju Choi, Apoorva Beedu, Harish Haresamudram, Irfan Essa
- Abstract要約: 本稿では,RGBビデオとIMUセンサの機能を効果的に組み合わせたマルチモーダルフレームワークを提案する。
最初の段階では,各入力エンコーダが特徴を効果的に抽出することを学ぶ。
ビデオのみに比べて22%,11%,MMActデータセットでは20%,12%の大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 6.0306313759213275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To properly assist humans in their needs, human activity recognition (HAR)
systems need the ability to fuse information from multiple modalities. Our
hypothesis is that multimodal sensors, visual and non-visual tend to provide
complementary information, addressing the limitations of other modalities. In
this work, we propose a multi-modal framework that learns to effectively
combine features from RGB Video and IMU sensors, and show its robustness for
MMAct and UTD-MHAD datasets. Our model is trained in two-stage, where in the
first stage, each input encoder learns to effectively extract features, and in
the second stage, learns to combine these individual features. We show
significant improvements of 22% and 11% compared to video only and IMU only
setup on UTD-MHAD dataset, and 20% and 12% on MMAct datasets. Through extensive
experimentation, we show the robustness of our model on zero shot setting, and
limited annotated data setting. We further compare with state-of-the-art
methods that use more input modalities and show that our method outperforms
significantly on the more difficult MMact dataset, and performs comparably in
UTD-MHAD dataset.
- Abstract(参考訳): 人間を適切に支援するためには、人間の活動認識(HAR)システムは複数のモダリティから情報を融合する能力が必要である。
私たちの仮説は、マルチモーダルセンサ、視覚および非視覚は、他のモダリティの制限に対処して補完的な情報を提供する傾向があるということです。
本研究では,RGBビデオとIMUセンサの機能を効果的に組み合わせたマルチモーダルフレームワークを提案し,MMActとUTD-MHADデータセットの堅牢性を示す。
第1段階では,各入力エンコーダが特徴を効果的に抽出することを学び,第2段階ではこれらの特徴を組み合わせることを学習する。
UTD-MHADデータセットでは22%,IMUでは11%,MMActデータセットでは20%,IMUでは12%の大幅な改善が見られた。
広汎な実験を通して、ゼロショット設定におけるモデルの堅牢性、および注釈付きデータ設定の制限を示す。
さらに,より多くの入力モードを使用する最先端の手法と比較し,より難しいmmactデータセットに比較して,utd-mhadデータセットで比較可能な性能を示す。
関連論文リスト
- MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
HAR(Human Activity Recognition)は、医療、スポーツ、フィットネス、セキュリティなど、幅広い分野で応用されているAIの長年の問題である。
本研究では,HAR 性能を向上させるため,総合的な Fitness Multimodal Activity データセット (FiMAD) を導入する。
MM-Fit,myoGym, MotionSense, MHEALTH などの実HARデータセット上で,FiMAD で事前学習した分類器の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-06-06T08:42:36Z) - Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs [9.570759294459629]
我々は,制限データの問題に対処するために,新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークアプローチであるMulti$3$Netを提案する。
本手法はウェアラブルHAR性能の向上,特に微妙な活動の認識を目的としている。
論文 参考訳(メタデータ) (2024-06-03T13:28:42Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Progressive Cross-modal Knowledge Distillation for Human Action
Recognition [10.269019492921306]
本稿では,ウェアラブルセンサを用いたHAR問題を解決するための,新しいプログレッシブ・骨格-センサ間知識蒸留(PSKD)モデルを提案する。
具体的には,教師(人間の骨格配列)と学生(時系列加速度計データ)の両方のデータを用いて,複数の教師モデルを構築した。
論文 参考訳(メタデータ) (2022-08-17T06:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。