論文の概要: SensorLLM: Human-Intuitive Alignment of Multivariate Sensor Data with LLMs for Activity Recognition
- arxiv url: http://arxiv.org/abs/2410.10624v3
- Date: Tue, 20 May 2025 17:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.440595
- Title: SensorLLM: Human-Intuitive Alignment of Multivariate Sensor Data with LLMs for Activity Recognition
- Title(参考訳): SensorLLM:活動認識のためのLLMを用いた多変量センサデータの人間の直感的アライメント
- Authors: Zechen Li, Shohreh Deldari, Linyao Chen, Hao Xue, Flora D. Salim,
- Abstract要約: 本稿では,Large Language Models(LLM)がウェアラブルセンサデータからHAR(Human Activity Recognition)を実現するためのフレームワークであるSensorLLMを紹介する。
多様なHARシナリオにまたがる人間の直感的なセンサテキストペアの質問応答データセットであるSensorQAを構築した。
その結果,SensorLLMは人間の直感的アライメントによって誘導され,多様なHAR設定にまたがる効果的なセンサ学習者,推論者,分類者となることがわかった。
- 参考スコア(独自算出の注目度): 9.072495000412943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SensorLLM, a two-stage framework that enables Large Language Models (LLMs) to perform human activity recognition (HAR) from wearable sensor data. While LLMs excel at reasoning and generalization, they struggle with time-series inputs due to limited semantic context, numerical complexity, and sequence variability. To address these challenges, we construct SensorQA, a question-answering dataset of human-intuitive sensor-text pairs spanning diverse HAR scenarios. It supervises the Sensor-Language Alignment stage, where the model aligns sensor inputs with trend descriptions. Special tokens are introduced to mark channel boundaries. This alignment enables LLMs to interpret numerical patterns, channel-specific signals, and variable-length inputs--without requiring human annotation. In the subsequent Task-Aware Tuning stage, we adapt the model for multivariate HAR classification, achieving performance that matches or exceeds state-of-the-art methods. Our results show that, guided by human-intuitive alignment, SensorLLM becomes an effective sensor learner, reasoner, and classifier--generalizing across varied HAR settings and paving the way for foundation model research in time-series analysis.
- Abstract(参考訳): 本研究では,Large Language Models(LLM)がウェアラブルセンサデータからHAR(Human Activity Recognition)を実現するための2段階フレームワークであるSensorLLMを紹介する。
LLMは推論や一般化に優れるが、意味的文脈の制限、数値的な複雑さ、シーケンスの可変性のために時系列入力に苦戦する。
これらの課題に対処するため、多様なHARシナリオにまたがる人間の直感的なセンサテキストペアの質問応答データセットであるSensorQAを構築した。
モデルがセンサ入力とトレンド記述を整列するSensor-Language Alignmentステージを監督する。
特別なトークンは、チャネル境界を示すために導入される。
このアライメントにより、LLMは人間のアノテーションを必要とせずに、数値パターン、チャネル固有の信号、および可変長入力を解釈できる。
その後のタスク・アウェア・チューニングの段階では、多変量HAR分類のためのモデルを適用し、最先端の手法に適合または超越した性能を達成する。
その結果,SensorLLMは人間の直感的アライメントによって,HAR設定を多岐にわたって一般化し,時系列解析における基礎モデル研究の道を開いた,効果的なセンサ学習者,推論者,分類者となった。
関連論文リスト
- Gensors: Authoring Personalized Visual Sensors with Multimodal Foundation Models and Reasoning [61.17099595835263]
Gensorsは、ユーザがMLLMの推論能力によってサポートされているカスタマイズされたセンサーを定義することを可能にするシステムである。
ユーザスタディでは、Gensorsを用いてセンサーを定義するとき、参加者はコントロール、理解、コミュニケーションの容易さを著しく向上させた。
論文 参考訳(メタデータ) (2025-01-27T01:47:57Z) - MSSIDD: A Benchmark for Multi-Sensor Denoising [55.41612200877861]
我々は,マルチセンサSIDDデータセットという新しいベンチマークを導入する。これは,認知モデルのセンサ伝達性を評価するために設計された,最初の生ドメインデータセットである。
そこで本研究では,センサに不変な特徴を認知モデルで学習することのできるセンサ一貫性トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T13:32:59Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing [6.8009140511761546]
大規模言語モデル(LLM)は、知覚データを処理する上で有望な能力を持ち、センサーシステムを開発するための副操縦士としての可能性を示している。
我々は,定量化のための総合的なベンチマークであるSensorBenchを構築した。
以上の結果から,LLMは単純なタスクでかなりの習熟度を示す一方で,構成タスクの処理において固有の課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T17:21:39Z) - Language-centered Human Activity Recognition [8.925867647929088]
Inertial Measurement Unit(IMU)センサーを用いたHAR(Human Activity Recognition)は、医療、安全、産業生産における応用において重要である。
アクティビティパターン、デバイスタイプ、センサー配置の変化は、データセット間の分散ギャップを生成する。
本稿では,センサの読み書きとアクティビティラベルのセマンティック解釈を生成するシステムであるLanHARを提案する。
論文 参考訳(メタデータ) (2024-09-12T22:57:29Z) - By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting [24.39281384670957]
マルチモーダル大言語モデル(MLLM)を用いたセンサデータに対する視覚的プロンプト手法を提案する。
我々は,MLLMの視覚的プロンプトを設計し,ターゲットの知覚タスク記述と並行して可視化されたセンサデータを活用する。
本研究は,4つの知覚モダリティを含む9つの感覚タスクに対するアプローチを評価し,テキストベースのプロンプトよりも平均10%高い精度を達成する。
論文 参考訳(メタデータ) (2024-07-15T01:33:54Z) - Layout Agnostic Human Activity Recognition in Smart Homes through Textual Descriptions Of Sensor Triggers (TDOST) [0.22354214294493352]
スマートホームにおけるヒューマンアクティビティ認識(HAR)システムのためのレイアウトに依存しないモデリング手法を開発した。
我々は、周囲のトリガー条件をカプセル化するセンサートリガーのテキスト記述(TDOST)を生成する。
我々は、ベンチマークしたCASASデータセットの実験を通して、見知らぬスマートホームにおけるTDOSTベースのモデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-20T20:37:44Z) - LLMSense: Harnessing LLMs for High-level Reasoning Over Spatiotemporal Sensor Traces [1.1137304094345333]
我々は,大規模言語モデル(LLM)の高レベル推論タスクに有効なプロンプトフレームワークを設計する。
また,長いセンサトレースによる性能向上のための2つの戦略を設計する。
当社のフレームワークはエッジクラウドで実装可能で,データ要約やプライバシ保護のためにクラウド上での高レベルの推論を行うために,エッジ上で小さなLLMを実行することができる。
論文 参考訳(メタデータ) (2024-03-28T22:06:04Z) - Evaluating Large Language Models as Virtual Annotators for Time-series Physical Sensing Data [5.092345761847645]
時系列物理センシングデータをラベル付けするための仮想アノテータとして, 最先端(SOTA) LLM が利用できるかを検討した。
論文 参考訳(メタデータ) (2024-03-02T08:29:08Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - A Real-time Human Pose Estimation Approach for Optimal Sensor Placement
in Sensor-based Human Activity Recognition [63.26015736148707]
本稿では,人間の行動認識に最適なセンサ配置の課題を解決するための新しい手法を提案する。
得られた骨格データは、最適なセンサ位置を特定するためのユニークな戦略を提供する。
本研究は,センサ配置の視覚的手法が従来のディープラーニング手法と同等の結果をもたらすことを示唆している。
論文 参考訳(メタデータ) (2023-07-06T10:38:14Z) - Unsupervised Statistical Feature-Guided Diffusion Model for Sensor-based Human Activity Recognition [3.2319909486685354]
ウェアラブルセンサーによる人間の活動認識の進歩を支えている重要な問題は、多様なラベル付きトレーニングデータの利用不可能である。
本研究では,ウェアラブルセンサを用いた人間行動認識に特化して最適化された,教師なしの統計的特徴誘導拡散モデルを提案する。
平均,標準偏差,Zスコア,歪などの統計情報に拡散モデルを適用し,多種多様な合成センサデータを生成する。
論文 参考訳(メタデータ) (2023-05-30T15:12:59Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Deep Soft Procrustes for Markerless Volumetric Sensor Alignment [81.13055566952221]
本研究では、より堅牢なマルチセンサ空間アライメントを実現するために、マーカーレスデータ駆動対応推定を改善する。
我々は、幾何学的制約を終末的に典型的なセグメンテーションベースモデルに組み込み、対象のポーズ推定タスクと中間密な分類タスクをブリッジする。
実験により,マーカーベースの手法で同様の結果が得られ,マーカーレス手法よりも優れ,またキャリブレーション構造のポーズ変動にも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-03-23T10:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。