論文の概要: MotionTeller: Multi-modal Integration of Wearable Time-Series with LLMs for Health and Behavioral Understanding
- arxiv url: http://arxiv.org/abs/2512.21506v1
- Date: Thu, 25 Dec 2025 04:37:07 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:53:38.091327
- Title: MotionTeller: Multi-modal Integration of Wearable Time-Series with LLMs for Health and Behavioral Understanding
- Title(参考訳): MotionTeller: 健康と行動を理解するためのウェアラブル時系列とLCMのマルチモーダル統合
- Authors: Aiwei Zhang, Arvind Pillai, Andrew Campbell, Nicholas C. Jacobson,
- Abstract要約: MotionTellerは、大規模言語モデル(LLM)と微小レベルのウェアラブルアクティビティデータを統合した生成フレームワークである。
我々は,実世界のNHANES記録から得られた554383対の新たなデータセットを構築し,言語トークンにのみ依存したクロスエントロピー損失を用いてモデルを訓練する。
MotionTellerは高いセマンティック忠実度(BERT-F1 = 0.924)と語彙精度(ROUGE-1 = 0.722)を実現し、ROUGE-1ではプロンプトベースのベースラインを7%上回っている。
- 参考スコア(独自算出の注目度): 4.158479111055355
- License:
- Abstract: As wearable sensing becomes increasingly pervasive, a key challenge remains: how can we generate natural language summaries from raw physiological signals such as actigraphy - minute-level movement data collected via accelerometers? In this work, we introduce MotionTeller, a generative framework that natively integrates minute-level wearable activity data with large language models (LLMs). MotionTeller combines a pretrained actigraphy encoder with a lightweight projection module that maps behavioral embeddings into the token space of a frozen decoder-only LLM, enabling free-text, autoregressive generation of daily behavioral summaries. We construct a novel dataset of 54383 (actigraphy, text) pairs derived from real-world NHANES recordings, and train the model using cross-entropy loss with supervision only on the language tokens. MotionTeller achieves high semantic fidelity (BERTScore-F1 = 0.924) and lexical accuracy (ROUGE-1 = 0.722), outperforming prompt-based baselines by 7 percent in ROUGE-1. The average training loss converges to 0.38 by epoch 15, indicating stable optimization. Qualitative analysis confirms that MotionTeller captures circadian structure and behavioral transitions, while PCA plots reveal enhanced cluster alignment in embedding space post-training. Together, these results position MotionTeller as a scalable, interpretable system for transforming wearable sensor data into fluent, human-centered descriptions, introducing new pathways for behavioral monitoring, clinical review, and personalized health interventions.
- Abstract(参考訳): ウェアラブルセンシングが普及するにつれて、重要な課題が残る:アクチノグラフィーのような生の生理的信号から、どのようにして自然言語の要約を生成することができるのか?
本研究では,大規模言語モデル (LLM) とマイクロレベルウェアラブルアクティビティデータをネイティブに統合する生成フレームワークであるMotionTellerを紹介する。
MotionTellerは、事前訓練されたアクチグラフィエンコーダと軽量なプロジェクションモジュールを組み合わせることで、凍結したデコーダのみのLCMのトークン空間に行動埋め込みをマッピングすることで、日々の行動サマリーを自由テキストで自動回帰的に生成することができる。
我々は,実世界のNHANES記録から得られた554383対の新たなデータセットを構築し,言語トークンにのみ依存したクロスエントロピー損失を用いてモデルを訓練する。
MotionTellerは高いセマンティック忠実度(BERTScore-F1 = 0.924)と語彙精度(ROUGE-1 = 0.722)を実現し、ROUGE-1ではプロンプトベースのベースラインを7%上回っている。
平均トレーニング損失は15歳までに0.38に収束し、安定な最適化を示す。
定性的分析により、MotionTellerは概日構造と行動遷移を捉え、PCAプロットは学習後の埋め込み空間におけるクラスタアライメントの強化を明らかにする。
これらの結果は、MotionTellerをスケーラブルで解釈可能なシステムとして位置づけ、ウェアラブルセンサーデータを流動的で人間中心の記述に変換し、行動監視、臨床レビュー、パーソナライズされた健康介入のための新しい経路を導入する。
関連論文リスト
- ESPADA: Execution Speedup via Semantics Aware Demonstration Data Downsampling for Imitation Learning [18.435889278351297]
ESPADAは3Dグリップ・オブジェクト関係を持つVLM-LLMパイプラインを使用して、デモをセグメント化するセマンティックなフレームワークである。
1つの注釈付きエピソードからフルデータセットにスケールするために、ESPADAはDynamic Time Warpingを通じてセグメントラベルを伝搬する。
ESPADAは成功率を維持しながら約2倍のスピードアップを実現し、人間のデモと効率的なロボット制御のギャップを狭める。
論文 参考訳(メタデータ) (2025-12-08T10:08:33Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - SensorLM: Learning the Language of Wearable Sensors [50.95988682423808]
本稿では,自然言語によるウェアラブルセンサデータ理解を可能にするセンサ言語基盤モデルのファミリーであるSensorLMを紹介する。
本稿では,センサデータから統計的,構造的,意味的な情報を収集する階層的なキャプション生成パイプラインを提案する。
このアプローチにより、これまでで最大のセンサー言語データセットのキュレーションが可能となり、103,000人以上から5970万時間以上のデータを収集した。
論文 参考訳(メタデータ) (2025-06-10T17:13:09Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - iKUN: Speak to Trackers without Retraining [21.555469501789577]
市販トラッカーとの通信を実現するため,iKUNと呼ばれる挿入可能な知識統一ネットワークを提案する。
局所化精度を向上させるために,プロセスノイズを動的に調整するKalman filter (NKF) のニューラルバージョンを提案する。
また、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceにもコントリビュートしています。
論文 参考訳(メタデータ) (2023-12-25T11:48:55Z) - Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label
Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。
我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。
本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-12-13T09:32:50Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。