論文の概要: SensorLM: Learning the Language of Wearable Sensors
- arxiv url: http://arxiv.org/abs/2506.09108v1
- Date: Tue, 10 Jun 2025 17:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.765863
- Title: SensorLM: Learning the Language of Wearable Sensors
- Title(参考訳): SensorLM: ウェアラブルセンサーの言語を学ぶ
- Authors: Yuwei Zhang, Kumar Ayush, Siyuan Qiao, A. Ali Heydari, Girish Narayanswamy, Maxwell A. Xu, Ahmed A. Metwally, Shawn Xu, Jake Garrison, Xuhai Xu, Tim Althoff, Yun Liu, Pushmeet Kohli, Jiening Zhan, Mark Malhotra, Shwetak Patel, Cecilia Mascolo, Xin Liu, Daniel McDuff, Yuzhe Yang,
- Abstract要約: 本稿では,自然言語によるウェアラブルセンサデータ理解を可能にするセンサ言語基盤モデルのファミリーであるSensorLMを紹介する。
本稿では,センサデータから統計的,構造的,意味的な情報を収集する階層的なキャプション生成パイプラインを提案する。
このアプローチにより、これまでで最大のセンサー言語データセットのキュレーションが可能となり、103,000人以上から5970万時間以上のデータを収集した。
- 参考スコア(独自算出の注目度): 50.95988682423808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SensorLM, a family of sensor-language foundation models that enable wearable sensor data understanding with natural language. Despite its pervasive nature, aligning and interpreting sensor data with language remains challenging due to the lack of paired, richly annotated sensor-text descriptions in uncurated, real-world wearable data. We introduce a hierarchical caption generation pipeline designed to capture statistical, structural, and semantic information from sensor data. This approach enabled the curation of the largest sensor-language dataset to date, comprising over 59.7 million hours of data from more than 103,000 people. Furthermore, SensorLM extends prominent multimodal pretraining architectures (e.g., CLIP, CoCa) and recovers them as specific variants within a generic architecture. Extensive experiments on real-world tasks in human activity analysis and healthcare verify the superior performance of SensorLM over state-of-the-art in zero-shot recognition, few-shot learning, and cross-modal retrieval. SensorLM also demonstrates intriguing capabilities including scaling behaviors, label efficiency, sensor captioning, and zero-shot generalization to unseen tasks.
- Abstract(参考訳): 本稿では,自然言語によるウェアラブルセンサデータ理解を可能にするセンサ言語基盤モデルのファミリーであるSensorLMを紹介する。
広汎な性質にもかかわらず、センサーデータの言語との整合と解釈は、未処理の現実世界のウェアラブルデータに、ペアリングされたリッチな注釈付きセンサテキスト記述が欠如しているため、依然として困難である。
本稿では,センサデータから統計的,構造的,意味的な情報を抽出する階層的なキャプション生成パイプラインを提案する。
このアプローチにより、これまでで最大のセンサー言語データセットのキュレーションが可能となり、103,000人以上から5970万時間以上のデータを収集した。
さらにSensorLMは、顕著なマルチモーダル事前学習アーキテクチャ(例えば、CLIP、CoCa)を拡張し、ジェネリックアーキテクチャ内の特定の変種として復元する。
人間活動分析と医療における実世界のタスクに関する広範囲にわたる実験は、ゼロショット認識、少数ショット学習、およびクロスモーダル検索における最先端のSensorLMの優れた性能を検証する。
SensorLMはまた、スケーリングの動作、ラベルの効率、センサーキャプション、目に見えないタスクへのゼロショットの一般化など、興味深い機能を示している。
関連論文リスト
- Gensors: Authoring Personalized Visual Sensors with Multimodal Foundation Models and Reasoning [61.17099595835263]
Gensorsは、ユーザがMLLMの推論能力によってサポートされているカスタマイズされたセンサーを定義することを可能にするシステムである。
ユーザスタディでは、Gensorsを用いてセンサーを定義するとき、参加者はコントロール、理解、コミュニケーションの容易さを著しく向上させた。
論文 参考訳(メタデータ) (2025-01-27T01:47:57Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - SensorLLM: Human-Intuitive Alignment of Multivariate Sensor Data with LLMs for Activity Recognition [9.072495000412943]
本稿では,Large Language Models(LLM)がウェアラブルセンサデータからHAR(Human Activity Recognition)を実現するためのフレームワークであるSensorLLMを紹介する。
多様なHARシナリオにまたがる人間の直感的なセンサテキストペアの質問応答データセットであるSensorQAを構築した。
その結果,SensorLLMは人間の直感的アライメントによって誘導され,多様なHAR設定にまたがる効果的なセンサ学習者,推論者,分類者となることがわかった。
論文 参考訳(メタデータ) (2024-10-14T15:30:41Z) - Layout Agnostic Human Activity Recognition in Smart Homes through Textual Descriptions Of Sensor Triggers (TDOST) [0.22354214294493352]
スマートホームにおけるヒューマンアクティビティ認識(HAR)システムのためのレイアウトに依存しないモデリング手法を開発した。
我々は、周囲のトリガー条件をカプセル化するセンサートリガーのテキスト記述(TDOST)を生成する。
我々は、ベンチマークしたCASASデータセットの実験を通して、見知らぬスマートホームにおけるTDOSTベースのモデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-20T20:37:44Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - The LuViRA Dataset: Synchronized Vision, Radio, and Audio Sensors for Indoor Localization [41.58739817444644]
データセットには、カラー画像、対応する深度マップ、慣性測定ユニット(IMU)読み取り、5Gの大規模マルチインプットとMIMO(Multiple-output)テストベッドとユーザ機器のチャネル応答が含まれる。
これらのセンサーを同期させて、すべてのデータが同時に記録されるようにします。
このデータセットの主な目的は、ローカライゼーションタスクに最もよく使用されるセンサーとのセンサー融合の研究を可能にすることである。
論文 参考訳(メタデータ) (2023-02-10T15:12:40Z) - Using Language Model to Bootstrap Human Activity Recognition Ambient
Sensors Based in Smart Homes [2.336163487623381]
本稿では,活動系列分類タスクにおけるLSTMに基づく構造向上のための2つの自然言語処理手法を提案する。
以上の結果から,センサ組織マップなどの有用な情報が得られることが示唆された。
我々のテストでは、埋め込みはターゲットと異なるデータセットで事前トレーニング可能であり、転送学習を可能にしている。
論文 参考訳(メタデータ) (2021-11-23T21:21:14Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。