論文の概要: SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2410.10624v1
- Date: Mon, 14 Oct 2024 15:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:09:53.559966
- Title: SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition
- Title(参考訳): SensorLLM:人間の活動認識のための運動センサを用いた大規模言語モデルの作成
- Authors: Zechen Li, Shohreh Deldari, Linyao Chen, Hao Xue, Flora D. Salim,
- Abstract要約: 我々は、Large Language Models(LLM)が人間の活動認識(HAR)のような時系列タスクを理解できるようにすることで、ウェアラブルセンサー技術とパーソナライズされたAIアシスタントのギャップを埋める。
センサデータタスクに対するLLMのポテンシャルを解放する2段階フレームワークであるSensorLLMを紹介する。
我々は,SensorLLMが効果的なセンサ学習者,推論者,学習者へと進化し,HARタスクのための多様なデータセットをまたいで一般化できることを示す。
- 参考スコア(独自算出の注目度): 9.072495000412943
- License:
- Abstract: In this work, we bridge the gap between wearable sensor technology and personalized AI assistants by enabling Large Language Models (LLMs) to understand time-series tasks like human activity recognition (HAR). Despite the strong reasoning and generalization capabilities of LLMs, leveraging them for sensor data tasks remains largely unexplored. This gap stems from challenges like the lack of semantic context in time-series data, computational limitations, and LLMs' difficulty processing numerical inputs. To address these issues, we introduce SensorLLM, a two-stage framework to unlock LLMs' potential for sensor data tasks. In the Sensor-Language Alignment Stage, we introduce special tokens for each sensor channel and automatically generate trend-descriptive text to align sensor data with textual inputs, enabling SensorLLM to capture numerical changes, channel-specific information, and sensor data of varying lengths-capabilities that existing LLMs typically struggle with, all without the need for human annotations. Next, in Task-Aware Tuning Stage, we refine the model for HAR classification using the frozen LLM and alignment module, achieving performance on par with or surpassing state-of-the-art models. We further demonstrate that SensorLLM evolves into an effective sensor learner, reasoner, and classifier through Sensor-Language Alignment, enabling it to generalize across diverse datasets for HAR tasks. We strongly believe our work lays the stepstone for future time-series and text alignment research, offering a path toward foundation models for sensor data.
- Abstract(参考訳): 本研究では,ウェアラブルセンサ技術とパーソナライズされたAIアシスタントとのギャップを,Large Language Models(LLM)がヒューマンアクティビティ認識(HAR)のような時系列タスクを理解できるようにすることで埋める。
LLMの強い推論と一般化能力にもかかわらず、センサーデータタスクにそれらを活用することは、まだほとんど探索されていない。
このギャップは、時系列データにおける意味的文脈の欠如、計算上の制限、LLMの数値入力処理の難しさなどの課題に起因している。
これらの問題に対処するために、センサーデータタスクに対するLLMのポテンシャルを解放する2段階フレームワークであるSensorLLMを導入する。
Sensor-Language Alignment Stageでは,センサチャネル毎に特別なトークンを導入し,センサデータをテキスト入力と整合させるトレンド記述テキストを自動的に生成する。
次に,タスク・アウェア・チューニング・ステージにおいて,凍結LDMとアライメントモジュールを用いたHAR分類モデルの改良を行い,最先端モデルに匹敵する性能を実現する。
我々はさらに、SensorLLMがSensor-Language Alignmentを通じて、効果的なセンサ学習者、推論者、分類者へと進化し、HARタスクのための多様なデータセットを一般化できることを実証した。
我々は、我々の研究が将来の時系列とテキストアライメント研究の基盤を築き、センサデータの基礎モデルへの道筋を築いていると強く信じている。
関連論文リスト
- By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting [24.39281384670957]
マルチモーダル大言語モデル(MLLM)を用いたセンサデータに対する視覚的プロンプト手法を提案する。
我々は,MLLMの視覚的プロンプトを設計し,ターゲットの知覚タスク記述と並行して可視化されたセンサデータを活用する。
本研究は,4つの知覚モダリティを含む9つの感覚タスクに対するアプローチを評価し,テキストベースのプロンプトよりも平均10%高い精度を達成する。
論文 参考訳(メタデータ) (2024-07-15T01:33:54Z) - LLMSense: Harnessing LLMs for High-level Reasoning Over Spatiotemporal Sensor Traces [1.1137304094345333]
我々は,大規模言語モデル(LLM)の高レベル推論タスクに有効なプロンプトフレームワークを設計する。
また,長いセンサトレースによる性能向上のための2つの戦略を設計する。
当社のフレームワークはエッジクラウドで実装可能で,データ要約やプライバシ保護のためにクラウド上での高レベルの推論を行うために,エッジ上で小さなLLMを実行することができる。
論文 参考訳(メタデータ) (2024-03-28T22:06:04Z) - Evaluating Large Language Models as Virtual Annotators for Time-series Physical Sensing Data [5.092345761847645]
時系列物理センシングデータをラベル付けするための仮想アノテータとして, 最先端(SOTA) LLM が利用できるかを検討した。
論文 参考訳(メタデータ) (2024-03-02T08:29:08Z) - A Plug-in Tiny AI Module for Intelligent and Selective Sensor Data
Transmission [10.174575604689391]
本稿では、インテリジェントなデータ伝送機能を備えたセンシングフレームワークを実現するための新しいセンシングモジュールを提案する。
センサの近くに置かれる高効率機械学習モデルを統合する。
このモデルは,無関係な情報を破棄しながら,貴重なデータのみを送信するセンサシステムに対して,迅速なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-03T05:41:39Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Deep Soft Procrustes for Markerless Volumetric Sensor Alignment [81.13055566952221]
本研究では、より堅牢なマルチセンサ空間アライメントを実現するために、マーカーレスデータ駆動対応推定を改善する。
我々は、幾何学的制約を終末的に典型的なセグメンテーションベースモデルに組み込み、対象のポーズ推定タスクと中間密な分類タスクをブリッジする。
実験により,マーカーベースの手法で同様の結果が得られ,マーカーレス手法よりも優れ,またキャリブレーション構造のポーズ変動にも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-03-23T10:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。