論文の概要: X-Fi: A Modality-Invariant Foundation Model for Multimodal Human Sensing
- arxiv url: http://arxiv.org/abs/2410.10167v2
- Date: Fri, 18 Oct 2024 06:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:34:41.244597
- Title: X-Fi: A Modality-Invariant Foundation Model for Multimodal Human Sensing
- Title(参考訳): X-Fi:マルチモーダルヒューマンセンシングのためのモダリティ不変基礎モデル
- Authors: Xinyan Chen, Jianfei Yang,
- Abstract要約: 現在の人間の感覚は主にカメラとLiDARに依存しており、それぞれに独自の強度と限界がある。
既存のマルチモーダル・フュージョン・ソリューションは、一般に固定されたモダリティの組み合わせのために設計されている。
この問題に対処するために、すべてのモダリティ(X-Fi)に対するモダリティ不変基盤モデルを提案する。
- 参考スコア(独自算出の注目度): 14.549639729808717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human sensing, which employs various sensors and advanced deep learning technologies to accurately capture and interpret human body information, has significantly impacted fields like public security and robotics. However, current human sensing primarily depends on modalities such as cameras and LiDAR, each of which has its own strengths and limitations. Furthermore, existing multi-modal fusion solutions are typically designed for fixed modality combinations, requiring extensive retraining when modalities are added or removed for diverse scenarios. In this paper, we propose a modality-invariant foundation model for all modalities, X-Fi, to address this issue. X-Fi enables the independent or combinatory use of sensor modalities without additional training by utilizing a transformer structure to accommodate variable input sizes and incorporating a novel "X-fusion" mechanism to preserve modality-specific features during multimodal integration. This approach not only enhances adaptability but also facilitates the learning of complementary features across modalities. Extensive experiments conducted on the MM-Fi and XRF55 datasets, employing six distinct modalities, demonstrate that X-Fi achieves state-of-the-art performance in human pose estimation (HPE) and human activity recognition (HAR) tasks. The findings indicate that our proposed model can efficiently support a wide range of human sensing applications, ultimately contributing to the evolution of scalable, multimodal sensing technologies.
- Abstract(参考訳): さまざまなセンサーと高度なディープラーニング技術を使って人体情報を正確に捉え、解釈するヒューマンセンシングは、公共のセキュリティやロボティクスといった分野に大きな影響を与えている。
しかし、現在の人間の感覚は、主にカメラやLiDARのような、それぞれ独自の強みと限界を持つモダリティに依存している。
さらに、既存のマルチモーダル融合ソリューションは、通常、固定されたモーダルの組み合わせのために設計されており、様々なシナリオに対してモーダルが加えられたり取り除かれたりする際には、広範囲なリトレーニングを必要とする。
本稿では、この問題に対処するため、すべてのモダリティ(X-Fi)に対するモダリティ不変基盤モデルを提案する。
X-Fiは、変圧器構造を利用して可変入力サイズを調整し、マルチモーダル統合中にモダリティ固有の特徴を保存する新しい「X-フュージョン」機構を組み込むことで、追加のトレーニングなしで、センサモダリティの独立的または複合的使用を可能にする。
このアプローチは適応性を向上するだけでなく、モダリティを越えた補完的な特徴の学習を促進する。
MM-FiとXRF55のデータセットを6つの異なるモードで組み合わせた実験により,ヒトのポーズ推定(HPE)とヒトの活動認識(HAR)タスクにおいて,X-Fiが最先端のパフォーマンスを達成することを示した。
この結果から,提案モデルでは広範囲の人体検知アプリケーションを効率的にサポートでき,最終的にはスケーラブルでマルチモーダルなセンシング技術の進化に寄与することが示唆された。
関連論文リスト
- AdaptiveFusion: Adaptive Multi-Modal Multi-View Fusion for 3D Human Body Reconstruction [15.18875378385477]
本稿では,汎用適応型マルチモーダル・マルチビュー融合フレームワークAdaptiveFusionを提案する。
本手法は最先端の核融合法と比較して精度が高い。
論文 参考訳(メタデータ) (2024-09-07T15:06:30Z) - Backpropagation-Free Multi-modal On-Device Model Adaptation via Cloud-Device Collaboration [37.456185990843515]
ユニバーサルオンデバイスマルチモーダルモデル適応フレームワークを提案する。
このフレームワークは、クラウドにホストされるFast Domain Adaptor(FDA)を特徴とし、デバイス上の軽量マルチモーダルモデル用に調整されたパラメータを提供する。
私たちの貢献は、オンデバイスマルチモーダルモデル適応(DMMA)の先駆的なソリューションである。
論文 参考訳(メタデータ) (2024-05-21T14:42:18Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Invariant Feature Learning for Sensor-based Human Activity Recognition [11.334750079923428]
被験者やデバイス間で共有される共通情報を抽出する不変特徴学習フレームワーク(IFLF)を提案する。
実験により、IFLFは、一般的なオープンデータセットと社内データセットをまたいだ主題とデバイスディバージョンの両方を扱うのに効果的であることが示された。
論文 参考訳(メタデータ) (2020-12-14T21:56:17Z) - SensiX: A Platform for Collaborative Machine Learning on the Edge [69.1412199244903]
センサデータとセンサモデルの間に留まるパーソナルエッジプラットフォームであるSensiXを紹介する。
動作および音声に基づくマルチデバイスセンシングシステムの開発において,その有効性を示す。
評価の結果,SensiXは3mWのオーバヘッドを犠牲にして,全体の精度が7~13%向上し,環境のダイナミクスが最大30%向上することがわかった。
論文 参考訳(メタデータ) (2020-12-04T23:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。