論文の概要: Efficient and Adaptive Human Activity Recognition via LLM Backbones
- arxiv url: http://arxiv.org/abs/2605.12019v1
- Date: Tue, 12 May 2026 12:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.842851
- Title: Efficient and Adaptive Human Activity Recognition via LLM Backbones
- Title(参考訳): LLMバックボーンを用いた効率的かつ適応的なヒト活動認識
- Authors: Aleksandr Bredikhin, Philippe Lalanda, German Vega,
- Abstract要約: 本稿では,大規模事前学習言語モデル(LLM)をセンサベースHARの汎用時間バックボーンとして再利用するパラダイムシフトを提案する。
提案手法は, 高速収束, 強力なデータ効率, 堅牢なデータ転送を実現する。
- 参考スコア(独自算出の注目度): 39.42078885809324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human Activity Recognition (HAR) is a core task in pervasive computing systems, where models must operate under strict computational constraints while remaining robust to heterogeneous and evolving deployment conditions. Recent advances based on Transformer architectures have significantly improved recognition performance, but typically rely on task-specific models trained from scratch, resulting in high training cost, large data requirements, and limited adaptability to domain shifts. In this paper, we propose a paradigm shift that reuses large pretrained language models (LLMs) as generic temporal backbones for sensor-based HAR, instead of designing domain-specific Transformers. To bridge the modality gap between inertial time series and language models, we introduce a structured convolutional projection that maps multivariate accelerometer and gyroscope signals into the latent space of the LLM. The pretrained backbone is kept frozen and adapted using parameter-efficient Low-Rank Adaptation (LoRA), drastically reducing the number of trainable parameters and the overall training cost. Through extensive experiments on standard HAR benchmarks, we show that this approach enables rapid convergence, strong data efficiency, and robust cross-dataset transfer, particularly in low-data and few-shot settings. At the same time, our results highlight the complementary roles of convolutional frontends and LLMs, where local invariances are handled at the signal level while long-range temporal dependencies are captured by the pretrained backbone. Overall, this work demonstrates that LLMs can serve as a practical, frugal, and scalable foundation for adaptive HAR systems, opening new directions for reusing foundation models beyond their original language domain.
- Abstract(参考訳): HAR(Human Activity Recognition)は、広汎なコンピューティングシステムにおいて、モデルが厳密な計算制約の下で動作し、不均一で進化するデプロイメント条件に頑健なままでいなければならない中核的なタスクである。
トランスフォーマーアーキテクチャに基づく最近の進歩は、認識性能を大幅に向上させたが、一般的には、スクラッチからトレーニングされたタスク固有のモデルに依存しており、結果として、高いトレーニングコスト、大規模なデータ要求、ドメインシフトへの適応性に制限がある。
本稿では,大規模事前学習言語モデル(LLM)を,ドメイン固有トランスフォーマの設計ではなく,センサベースHARの汎用時間バックボーンとして再利用するパラダイムシフトを提案する。
慣性時系列と言語モデルの間のモダリティギャップを埋めるために,多変量加速度計とジャイロスコープ信号がLLMの潜時空間にマッピングされる構造的畳み込みプロジェクションを導入する。
トレーニング済みのバックボーンは、パラメータ効率の低いローランド適応(LoRA)を使用して凍結調整され、トレーニング可能なパラメータの数と全体的なトレーニングコストを大幅に削減する。
標準HARベンチマークの広範な実験により, 高速収束, 強いデータ効率, 堅牢なデータセット転送, 特に低データおよび少数ショット設定において実現可能であることを示す。
同時に, 畳み込みフロントエンドとLCMの相補的役割を強調し, 信号レベルで局所的な不変性を処理し, 長期間の時間依存性を予め訓練したバックボーンで捉えた。
全体として、この研究は、LLMが適応型HARシステムのための実用的で粗野でスケーラブルな基盤として機能することを示し、基盤モデルを元の言語ドメインを超えて再利用するための新たな方向を開く。
関連論文リスト
- Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation [25.08795071237411]
フィーチャートランスフォーメーション(Feature Transformation)は、機能空間の品質を改善して予測パフォーマンスを向上する、データ中心のAIタスクである。
既存のソリューションは、個別の検索や潜伏生成に依存しているが、サンプルの非効率性、無効な候補、カバー範囲の制限のある冗長な世代によって、しばしば制限される。
閉ループにおける軌道レベルの経験を進化させることにより,LLM駆動型FTの文脈データを最適化するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-13T01:12:41Z) - A Multi-Criteria Automated MLOps Pipeline for Cost-Effective Cloud-Based Classifier Retraining in Response to Data Distribution Shifts [0.0]
機械学習(ML)モデルの性能は、基礎となるデータ分布が時間とともに変化すると劣化することが多い。
MLOps(ML Operations)はしばしば手動であり、人間はモデルの再訓練と再デプロイのプロセスをトリガーする。
本稿では,データ分散の大幅な変化に応じて,ニューラルネットワークの再トレーニングに対処する自動MLOpsパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T13:22:14Z) - Efficient Online Continual Learning in Sensor-Based Human Activity Recognition [8.720698253117837]
PTRN-HARは、限られた量のデータで対照的な損失を用いて特徴抽出器を事前訓練する。
本稿では,PTRN-HARについて紹介する。
論文 参考訳(メタデータ) (2025-11-04T08:48:36Z) - Enhancing Semantic Segmentation with Continual Self-Supervised Pre-training [11.897717409259492]
自己教師付き学習(SSL)は、基礎モデルをトレーニングするための中心的なパラダイムとして登場した。
GLAREは,下流セグメンテーション性能の向上を目的とした,新規な自己教師型事前学習タスクである。
論文 参考訳(メタデータ) (2025-09-22T14:11:02Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - A Text-Based Knowledge-Embedded Soft Sensing Modeling Approach for General Industrial Process Tasks Based on Large Language Model [16.842988666530204]
データ駆動型ソフトセンサー(DDSS)は、プロセス産業において重要なパフォーマンス指標を予測する主要な手法となっている。
開発には、モデリングプロセス中に様々なタスクに合わせてカスタマイズされた複雑でコストがかかる設計が必要である。
本稿では,LLM-TKESS(テキストベース知識埋め込み型ソフトセンシングのための大規模言語モデル)というフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-09T08:59:14Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。