論文の概要: LLaSA: A Multimodal LLM for Human Activity Analysis Through Wearable and Smartphone Sensors
- arxiv url: http://arxiv.org/abs/2406.14498v2
- Date: Tue, 10 Dec 2024 21:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:59:27.425644
- Title: LLaSA: A Multimodal LLM for Human Activity Analysis Through Wearable and Smartphone Sensors
- Title(参考訳): LLaSA:ウェアラブルとスマートフォンのセンサーによる人間の活動分析のためのマルチモーダルLCM
- Authors: Sheikh Asif Imran, Mohammad Nur Hossain Khan, Subrata Biswas, Bashima Islam,
- Abstract要約: LLaSA(Large Language and Sensor Assistant)はLIMU-BERTとLlamaをベースとしたマルチモーダルな大規模言語モデルである。
LLaSAを開発するために、手作り特徴を持つ35,960個のIMU由来の物語集であるSensorCapsと、179,727個の質問応答対を含む指示追従データセットであるOpenSQAの2つの重要なデータセットを紹介した。
LLaSA は GPT-3.5-Turbo や Vicuna-1.5-13b-16K よりも優れたデータ解釈と文脈認識応答を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Integrating inertial measurement units (IMUs) with large language models (LLMs) expands the potential of multimodal AI, enabling more nuanced human activity analysis. In this paper, we introduce LLaSA (Large Language and Sensor Assistant), a multimodal large language model built on LIMU-BERT and Llama, designed to interpret and answer queries related to human activities and motion analysis, leveraging sensor data and contextual reasoning. To develop LLaSA, we introduce two key datasets: SensorCaps, a comprehensive collection of 35,960 IMU-derived narratives with handcrafted features, and OpenSQA, an instruction-following dataset containing 179,727 question-answer pairs aware of the sensor and human activity context. These datasets provide diverse and rich inputs to train LLaSA for complex sensor-based queries. To optimize LLaSA's performance, we apply a unique hyperparameter tuning method, which significantly enhances its effectiveness in contextual question-answering tasks. Extensive evaluations, including a human-led assessment of the question-answering, demonstrate that LLaSA achieves superior data interpretation and context-aware responses compared to GPT-3.5-Turbo and Vicuna-1.5-13b-16K. These contributions advance the frontier of sensor-aware LLMs and create new opportunities for impactful multimodal research in healthcare, sports science, and human-computer interactions. Our code repository and datasets can be found at https://github.com/BASHLab/LLaSA.
- Abstract(参考訳): 慣性測定ユニット(IMU)と大言語モデル(LLM)を統合することで、マルチモーダルAIの可能性を広げ、より微妙な人間の活動分析を可能にする。
本稿では,LIMU-BERTとLlamaをベースとしたマルチモーダルな大規模言語モデルであるLLaSA(Large Language and Sensor Assistant)を紹介する。
LLaSAを開発するために、手作りの特徴を持つ35,960個のIMU由来の物語を包括的に収集したSensorCapsと、センサと人間の活動状況を認識した179,727個の質問応答対を含む指示追従データセットOpenSQAの2つの主要なデータセットを紹介した。
これらのデータセットは、複雑なセンサーベースのクエリのためにLLaSAをトレーニングするための多種多様な入力を提供する。
LLaSAの性能を最適化するために、コンテキスト問合せタスクにおけるその有効性を大幅に向上する独自のハイパーパラメータチューニング手法を適用する。
GPT-3.5-Turbo や Vicuna-1.5-13b-16K と比較して,LLaSA が優れたデータ解釈と文脈認識応答を実現することを示す。
これらの貢献は、センサーを意識したLDMのフロンティアを前進させ、医療、スポーツ科学、人間とコンピュータの相互作用におけるインパクトのあるマルチモーダル研究の新たな機会を生み出している。
コードリポジトリとデータセットはhttps://github.com/BASHLab/LLaSA.comで確認できます。
関連論文リスト
- Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Are Vision-Language Models Truly Understanding Multi-vision Sensor? [38.70868031001611]
大規模視覚言語モデル(VLM)は、視覚入力をテキストと整列させることによって進歩している。
実世界のアプリケーションでは、熱、深度、X線情報といった多様なマルチビジョンセンサーデータの理解が不可欠である。
論文 参考訳(メタデータ) (2024-12-30T06:44:25Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing [6.8009140511761546]
大規模言語モデル(LLM)は、知覚データを処理する上で有望な能力を持ち、センサーシステムを開発するための副操縦士としての可能性を示している。
我々は,定量化のための総合的なベンチマークであるSensorBenchを構築した。
以上の結果から,LLMは単純なタスクでかなりの習熟度を示す一方で,構成タスクの処理において固有の課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T17:21:39Z) - SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition [9.072495000412943]
我々は、Large Language Models(LLM)が人間の活動認識(HAR)のような時系列タスクを理解できるようにすることで、ウェアラブルセンサー技術とパーソナライズされたAIアシスタントのギャップを埋める。
センサデータタスクに対するLLMのポテンシャルを解放する2段階フレームワークであるSensorLLMを紹介する。
我々は,SensorLLMが効果的なセンサ学習者,推論者,学習者へと進化し,HARタスクのための多様なデータセットをまたいで一般化できることを示す。
論文 参考訳(メタデータ) (2024-10-14T15:30:41Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。