論文の概要: MHARFedLLM: Multimodal Human Activity Recognition Using Federated Large Language Model
- arxiv url: http://arxiv.org/abs/2508.01701v1
- Date: Sun, 03 Aug 2025 10:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.020183
- Title: MHARFedLLM: Multimodal Human Activity Recognition Using Federated Large Language Model
- Title(参考訳): MHARFedLLM:Federated Large Language Modelを用いたマルチモーダルヒューマンアクティビティ認識
- Authors: Asmit Bandyopadhyay, Rohit Basu, Tanmay Sen, Swagatam Das,
- Abstract要約: HAR(Human Activity Recognition)は、フィットネストラッキング、スマートホーム、医療モニタリングなどのアプリケーションにおいて重要な役割を果たす。
従来のHARシステムは、モーションセンサーやカメラのような単一のモードに依存しており、現実の環境でのロバスト性や精度を制限している。
ヘテロジニアスなデータソースを組み合わせることでHARを進化させる新しいマルチモーダル・フェデレート学習フレームワークであるFedTime-MAGNETを提案する。
- 参考スコア(独自算出の注目度): 26.112543245882076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human Activity Recognition (HAR) plays a vital role in applications such as fitness tracking, smart homes, and healthcare monitoring. Traditional HAR systems often rely on single modalities, such as motion sensors or cameras, limiting robustness and accuracy in real-world environments. This work presents FedTime-MAGNET, a novel multimodal federated learning framework that advances HAR by combining heterogeneous data sources: depth cameras, pressure mats, and accelerometers. At its core is the Multimodal Adaptive Graph Neural Expert Transformer (MAGNET), a fusion architecture that uses graph attention and a Mixture of Experts to generate unified, discriminative embeddings across modalities. To capture complex temporal dependencies, a lightweight T5 encoder only architecture is customized and adapted within this framework. Extensive experiments show that FedTime-MAGNET significantly improves HAR performance, achieving a centralized F1 Score of 0.934 and a strong federated F1 Score of 0.881. These results demonstrate the effectiveness of combining multimodal fusion, time series LLMs, and federated learning for building accurate and robust HAR systems.
- Abstract(参考訳): HAR(Human Activity Recognition)は、フィットネストラッキング、スマートホーム、医療モニタリングなどのアプリケーションにおいて重要な役割を果たす。
従来のHARシステムは、モーションセンサーやカメラのような単一のモードに依存しており、現実の環境では頑丈さと精度を制限している。
この研究はFedTime-MAGNETという,深度カメラ,圧力マット,加速度計といった異種データソースを組み合わせることでHARを進化させる,新しいマルチモーダル・フェデレート学習フレームワークを提示する。
コアとなるMultimodal Adaptive Graph Neural Expert Transformer(MAGNET)は、グラフアテンションとMixture of Expertsを使用して、モジュール間の統一された差別的な埋め込みを生成するフュージョンアーキテクチャである。
複雑な時間的依存関係をキャプチャするために、軽量なT5エンコーダのみのアーキテクチャがカスタマイズされ、このフレームワークに適合する。
実験の結果,FedTime-MAGNETはHAR性能を著しく改善し,F1スコア0.934,F1スコア0.881を実現した。
これらの結果から, マルチモーダル融合, 時系列LLM, フェデレーション学習を併用して, 高精度かつ堅牢なHARシステムを構築することの有効性が示された。
関連論文リスト
- An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN [0.0]
ハンドジェスチャ認識(HGR)は、様々な現実世界のコンテキストにおいて、直感的な人間とコンピュータのインタラクションを可能にする。
既存のフレームワークは、実用的なHGRアプリケーションに必要なリアルタイム要件を満たすのに苦労することが多い。
本研究では,動的ハンドジェスチャの静的イメージタスクへの認識を簡略化する,動的HGRのための頑健な骨格ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T09:30:59Z) - MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
HAR(Human Activity Recognition)は、人工知能における長年の問題であり、幅広い分野で応用されている。
本研究では,HAR 性能を向上させるため,総合的な Fitness Multimodal Activity データセット (FiMAD) を導入する。
本研究では,MM-Fit,myoGym, MotionSense, MHEALTHなどの実HARデータセットの性能向上を図る。
論文 参考訳(メタデータ) (2024-06-06T08:42:36Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Unified Contrastive Fusion Transformer for Multimodal Human Action
Recognition [13.104967563769533]
我々は、Unified Contrastive Fusion Transformer (UCFFormer)と呼ばれる新しいマルチモーダル核融合アーキテクチャを導入する。
UCFFormerは、人間の行動認識(HAR)性能を向上させるために、さまざまなディストリビューションとデータを統合する。
We present the Factorized Time-Modality Attention to perform self-attention for the Unified Transformer。
論文 参考訳(メタデータ) (2023-09-10T14:10:56Z) - FS-Real: Towards Real-World Cross-Device Federated Learning [60.91678132132229]
Federated Learning (FL)は、ローカルデータをアップロードすることなく、分散クライアントと協調して高品質なモデルをトレーニングすることを目的としている。
FL研究と実世界のシナリオの間には依然としてかなりのギャップがあり、主に異種デバイスの特徴とそのスケールによって引き起こされている。
本稿では,実世界横断デバイスFL,FS-Realのための効率的でスケーラブルなプロトタイピングシステムを提案する。
論文 参考訳(メタデータ) (2023-03-23T15:37:17Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。
特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。
我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文 参考訳(メタデータ) (2022-05-24T03:29:54Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。