論文の概要: LLaSA: A Multimodal LLM for Human Activity Analysis Through Wearable and Smartphone Sensors
- arxiv url: http://arxiv.org/abs/2406.14498v2
- Date: Tue, 10 Dec 2024 21:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:59:27.425644
- Title: LLaSA: A Multimodal LLM for Human Activity Analysis Through Wearable and Smartphone Sensors
- Title(参考訳): LLaSA:ウェアラブルとスマートフォンのセンサーによる人間の活動分析のためのマルチモーダルLCM
- Authors: Sheikh Asif Imran, Mohammad Nur Hossain Khan, Subrata Biswas, Bashima Islam,
- Abstract要約: LLaSA(Large Language and Sensor Assistant)はLIMU-BERTとLlamaをベースとしたマルチモーダルな大規模言語モデルである。
LLaSAを開発するために、手作り特徴を持つ35,960個のIMU由来の物語集であるSensorCapsと、179,727個の質問応答対を含む指示追従データセットであるOpenSQAの2つの重要なデータセットを紹介した。
LLaSA は GPT-3.5-Turbo や Vicuna-1.5-13b-16K よりも優れたデータ解釈と文脈認識応答を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Integrating inertial measurement units (IMUs) with large language models (LLMs) expands the potential of multimodal AI, enabling more nuanced human activity analysis. In this paper, we introduce LLaSA (Large Language and Sensor Assistant), a multimodal large language model built on LIMU-BERT and Llama, designed to interpret and answer queries related to human activities and motion analysis, leveraging sensor data and contextual reasoning. To develop LLaSA, we introduce two key datasets: SensorCaps, a comprehensive collection of 35,960 IMU-derived narratives with handcrafted features, and OpenSQA, an instruction-following dataset containing 179,727 question-answer pairs aware of the sensor and human activity context. These datasets provide diverse and rich inputs to train LLaSA for complex sensor-based queries. To optimize LLaSA's performance, we apply a unique hyperparameter tuning method, which significantly enhances its effectiveness in contextual question-answering tasks. Extensive evaluations, including a human-led assessment of the question-answering, demonstrate that LLaSA achieves superior data interpretation and context-aware responses compared to GPT-3.5-Turbo and Vicuna-1.5-13b-16K. These contributions advance the frontier of sensor-aware LLMs and create new opportunities for impactful multimodal research in healthcare, sports science, and human-computer interactions. Our code repository and datasets can be found at https://github.com/BASHLab/LLaSA.
- Abstract(参考訳): 慣性測定ユニット(IMU)と大言語モデル(LLM)を統合することで、マルチモーダルAIの可能性を広げ、より微妙な人間の活動分析を可能にする。
本稿では,LIMU-BERTとLlamaをベースとしたマルチモーダルな大規模言語モデルであるLLaSA(Large Language and Sensor Assistant)を紹介する。
LLaSAを開発するために、手作りの特徴を持つ35,960個のIMU由来の物語を包括的に収集したSensorCapsと、センサと人間の活動状況を認識した179,727個の質問応答対を含む指示追従データセットOpenSQAの2つの主要なデータセットを紹介した。
これらのデータセットは、複雑なセンサーベースのクエリのためにLLaSAをトレーニングするための多種多様な入力を提供する。
LLaSAの性能を最適化するために、コンテキスト問合せタスクにおけるその有効性を大幅に向上する独自のハイパーパラメータチューニング手法を適用する。
GPT-3.5-Turbo や Vicuna-1.5-13b-16K と比較して,LLaSA が優れたデータ解釈と文脈認識応答を実現することを示す。
これらの貢献は、センサーを意識したLDMのフロンティアを前進させ、医療、スポーツ科学、人間とコンピュータの相互作用におけるインパクトのあるマルチモーダル研究の新たな機会を生み出している。
コードリポジトリとデータセットはhttps://github.com/BASHLab/LLaSA.comで確認できます。
関連論文リスト
- Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - Large Language Models are Zero-Shot Recognizers for Activities of Daily Living [0.29998889086656577]
LLMに基づく新しいADL認識システムであるADL-LLMを提案する。
ADL-LLMは、生センサデータをLLMによって処理されたテキスト表現に変換し、ゼロショットADL認識を行う。
ADL-LLMを2つの公開データセット上で評価し,その有効性を示した。
論文 参考訳(メタデータ) (2024-07-01T12:32:38Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - BASES: Large-scale Web Search User Simulation with Large Language Model
based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。
シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。
WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文 参考訳(メタデータ) (2024-02-27T13:44:09Z) - LLMArena: Assessing Capabilities of Large Language Models in Dynamic
Multi-Agent Environments [35.926581910260076]
マルチエージェント動的環境における大規模言語モデルの能力を評価するためのフレームワークであるLLMArenaを紹介する。
LLArenaはTrueskillスコアを使用して、空間推論、戦略的計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価する。
我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、完全に自律的なエージェントへと発展する上で、依然として重要な道のりを歩んでいることを示す。
論文 参考訳(メタデータ) (2024-02-26T11:31:48Z) - Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。