論文の概要: SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2410.10624v1
- Date: Mon, 14 Oct 2024 15:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:35:30.881164
- Title: SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition
- Title(参考訳): SensorLLM:人間の活動認識のための運動センサを用いた大規模言語モデルの作成
- Authors: Zechen Li, Shohreh Deldari, Linyao Chen, Hao Xue, Flora D. Salim,
- Abstract要約: 我々は、Large Language Models(LLM)が人間の活動認識(HAR)のような時系列タスクを理解できるようにすることで、ウェアラブルセンサー技術とパーソナライズされたAIアシスタントのギャップを埋める。
センサデータタスクに対するLLMのポテンシャルを解放する2段階フレームワークであるSensorLLMを紹介する。
我々は,SensorLLMが効果的なセンサ学習者,推論者,学習者へと進化し,HARタスクのための多様なデータセットをまたいで一般化できることを示す。
- 参考スコア(独自算出の注目度): 9.072495000412943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we bridge the gap between wearable sensor technology and personalized AI assistants by enabling Large Language Models (LLMs) to understand time-series tasks like human activity recognition (HAR). Despite the strong reasoning and generalization capabilities of LLMs, leveraging them for sensor data tasks remains largely unexplored. This gap stems from challenges like the lack of semantic context in time-series data, computational limitations, and LLMs' difficulty processing numerical inputs. To address these issues, we introduce SensorLLM, a two-stage framework to unlock LLMs' potential for sensor data tasks. In the Sensor-Language Alignment Stage, we introduce special tokens for each sensor channel and automatically generate trend-descriptive text to align sensor data with textual inputs, enabling SensorLLM to capture numerical changes, channel-specific information, and sensor data of varying lengths-capabilities that existing LLMs typically struggle with, all without the need for human annotations. Next, in Task-Aware Tuning Stage, we refine the model for HAR classification using the frozen LLM and alignment module, achieving performance on par with or surpassing state-of-the-art models. We further demonstrate that SensorLLM evolves into an effective sensor learner, reasoner, and classifier through Sensor-Language Alignment, enabling it to generalize across diverse datasets for HAR tasks. We strongly believe our work lays the stepstone for future time-series and text alignment research, offering a path toward foundation models for sensor data.
- Abstract(参考訳): 本研究では,ウェアラブルセンサ技術とパーソナライズされたAIアシスタントとのギャップを,Large Language Models(LLM)がヒューマンアクティビティ認識(HAR)のような時系列タスクを理解できるようにすることで埋める。
LLMの強い推論と一般化能力にもかかわらず、センサーデータタスクにそれらを活用することは、まだほとんど探索されていない。
このギャップは、時系列データにおける意味的文脈の欠如、計算上の制限、LLMの数値入力処理の難しさなどの課題に起因している。
これらの問題に対処するために、センサーデータタスクに対するLLMのポテンシャルを解放する2段階フレームワークであるSensorLLMを導入する。
Sensor-Language Alignment Stageでは,センサチャネル毎に特別なトークンを導入し,センサデータをテキスト入力と整合させるトレンド記述テキストを自動的に生成する。
次に,タスク・アウェア・チューニング・ステージにおいて,凍結LDMとアライメントモジュールを用いたHAR分類モデルの改良を行い,最先端モデルに匹敵する性能を実現する。
我々はさらに、SensorLLMがSensor-Language Alignmentを通じて、効果的なセンサ学習者、推論者、分類者へと進化し、HARタスクのための多様なデータセットを一般化できることを実証した。
我々は、我々の研究が将来の時系列とテキストアライメント研究の基盤を築き、センサデータの基礎モデルへの道筋を築いていると強く信じている。
関連論文リスト
- MSSIDD: A Benchmark for Multi-Sensor Denoising [55.41612200877861]
我々は,マルチセンサSIDDデータセットという新しいベンチマークを導入する。これは,認知モデルのセンサ伝達性を評価するために設計された,最初の生ドメインデータセットである。
そこで本研究では,センサに不変な特徴を認知モデルで学習することのできるセンサ一貫性トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T13:32:59Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing [6.8009140511761546]
大規模言語モデル(LLM)は、知覚データを処理する上で有望な能力を持ち、センサーシステムを開発するための副操縦士としての可能性を示している。
我々は,定量化のための総合的なベンチマークであるSensorBenchを構築した。
以上の結果から,LLMは単純なタスクでかなりの習熟度を示す一方で,構成タスクの処理において固有の課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T17:21:39Z) - Language-centered Human Activity Recognition [8.925867647929088]
Inertial Measurement Unit(IMU)センサーを用いたHAR(Human Activity Recognition)は、医療、安全、産業生産における応用において重要である。
アクティビティパターン、デバイスタイプ、センサー配置の変化は、データセット間の分散ギャップを生成する。
本稿では,センサの読み書きとアクティビティラベルのセマンティック解釈を生成するシステムであるLanHARを提案する。
論文 参考訳(メタデータ) (2024-09-12T22:57:29Z) - By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting [24.39281384670957]
マルチモーダル大言語モデル(MLLM)を用いたセンサデータに対する視覚的プロンプト手法を提案する。
我々は,MLLMの視覚的プロンプトを設計し,ターゲットの知覚タスク記述と並行して可視化されたセンサデータを活用する。
本研究は,4つの知覚モダリティを含む9つの感覚タスクに対するアプローチを評価し,テキストベースのプロンプトよりも平均10%高い精度を達成する。
論文 参考訳(メタデータ) (2024-07-15T01:33:54Z) - LLMSense: Harnessing LLMs for High-level Reasoning Over Spatiotemporal Sensor Traces [1.1137304094345333]
我々は,大規模言語モデル(LLM)の高レベル推論タスクに有効なプロンプトフレームワークを設計する。
また,長いセンサトレースによる性能向上のための2つの戦略を設計する。
当社のフレームワークはエッジクラウドで実装可能で,データ要約やプライバシ保護のためにクラウド上での高レベルの推論を行うために,エッジ上で小さなLLMを実行することができる。
論文 参考訳(メタデータ) (2024-03-28T22:06:04Z) - Evaluating Large Language Models as Virtual Annotators for Time-series Physical Sensing Data [5.092345761847645]
時系列物理センシングデータをラベル付けするための仮想アノテータとして, 最先端(SOTA) LLM が利用できるかを検討した。
論文 参考訳(メタデータ) (2024-03-02T08:29:08Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。