論文の概要: LLaSA: A Multimodal LLM for Human Activity Analysis Through Wearable and Smartphone Sensors
- arxiv url: http://arxiv.org/abs/2406.14498v3
- Date: Mon, 05 May 2025 20:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 14:45:09.02512
- Title: LLaSA: A Multimodal LLM for Human Activity Analysis Through Wearable and Smartphone Sensors
- Title(参考訳): LLaSA:ウェアラブルとスマートフォンのセンサーによる人間の活動分析のためのマルチモーダルLCM
- Authors: Sheikh Asif Imran, Mohammad Nur Hossain Khan, Subrata Biswas, Bashima Islam,
- Abstract要約: 生のIMUデータに基づいた質問に何でも答えられるコンパクトな13BモデルであるLLaSAを紹介する。
LLaSAは会話型、文脈対応推論をサポートし、センサ検出行動の原因を説明する。
SensorCaps、OpenSQA、Tune-OpenSQAの3つの大規模なデータセットをリリースしています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wearables generate rich motion data, yet current systems only classify what happened - failing to support natural questions about why it happened or what it means. We introduce LLaSA (Large Language and Sensor Assistant), a compact 13B model that enables ask-anything, open-ended question answering grounded in raw IMU data. LLaSA supports conversational, context-aware reasoning - explaining the causes of sensor-detected behaviors and answering free-form questions in real-world scenarios. It is tuned for scientific accuracy, coherence, and response reliability. To advance this new task of sensor-based QA, we release three large-scale datasets: SensorCaps, OpenSQA, and Tune-OpenSQA. Together, these resources define a new benchmark for sensor-language models. LLaSA consistently produces interpretable, causal answers and outperforms commercial LLMs across both public and real-world settings. Our code repository and datasets can be found at https://github.com/BASHLab/LLaSA.
- Abstract(参考訳): ウェアラブルは、リッチなモーションデータを生成するが、現在のシステムは、何が起きたかのみを分類する。
LLaSA(Large Language and Sensor Assistant)は、生のIMUデータに基づく質問に答えられる13Bモデルである。
LLaSAは、センサー検出された振る舞いの原因を説明し、現実世界のシナリオで自由形式の質問に答える、会話型でコンテキスト対応の推論をサポートする。
科学的精度、コヒーレンス、応答信頼性のために調整されている。
センサベースのQAの新たなタスクを進めるために、SensorCaps、OpenSQA、Tune-OpenSQAの3つの大規模データセットをリリースする。
これらのリソースは、センサ言語モデルの新たなベンチマークを定義する。
LLaSAは、解釈可能な因果的な回答を一貫して生成し、パブリックおよび現実世界の両方で商業LLMよりも優れています。
コードリポジトリとデータセットはhttps://github.com/BASHLab/LLaSA.comで確認できます。
関連論文リスト
- MuRAL: A Multi-Resident Ambient Sensor Dataset Annotated with Natural Language for Activities of Daily Living [4.187145402358247]
自然言語を用いた最初のマルチレジデント・アンビエント・センサ・データセットであるMuRALを紹介する。
Muralには、きめ細かい自然言語の記述、常駐のアイデンティティ、ハイレベルなアクティビティラベルが添付されている。
我々は、課題割り当て、アクション記述、アクティビティ分類の3つのコアタスクに対して、最先端のLLMを用いてMuRALをベンチマークする。
論文 参考訳(メタデータ) (2025-04-29T07:46:14Z) - Leveraging Large Language Models for Explainable Activity Recognition in Smart Homes: A Critical Evaluation [0.29998889086656577]
XAIは、スマートホームにおけるセンサによる日常生活活動(ADL)認識に適用されている。
本稿では,XAIとLarge Language Models(LLM)を組み合わせたセンサを用いたADL認識の可能性について検討する。
論文 参考訳(メタデータ) (2025-03-20T18:23:03Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing [6.8009140511761546]
大規模言語モデル(LLM)は、知覚データを処理する上で有望な能力を持ち、センサーシステムを開発するための副操縦士としての可能性を示している。
我々は,定量化のための総合的なベンチマークであるSensorBenchを構築した。
以上の結果から,LLMは単純なタスクでかなりの習熟度を示す一方で,構成タスクの処理において固有の課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T17:21:39Z) - SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition [9.072495000412943]
本稿では,Large Language Models(LLM)がセンサデータからHAR(Human Activity Recognition)を実現するためのフレームワークであるSensorLLMを紹介する。
SensorLLMは、各センサチャネルに特別なトークンを導入するSensor-Language Alignmentステージを通じて制限に対処する。
その後のタスク・アウェア・チューニングの段階では、HAR分類のモデルを洗練し、最先端の手法に適合または超越した性能を達成する。
論文 参考訳(メタデータ) (2024-10-14T15:30:41Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - Large Language Models are Zero-Shot Recognizers for Activities of Daily Living [0.29998889086656577]
LLMに基づく新しいADL認識システムであるADL-LLMを提案する。
ADL-LLMは、生センサデータをLLMによって処理されたテキスト表現に変換し、ゼロショットADL認識を行う。
ADL-LLMを2つの公開データセット上で評価し,その有効性を示した。
論文 参考訳(メタデータ) (2024-07-01T12:32:38Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - BASES: Large-scale Web Search User Simulation with Large Language Model
based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。
シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。
WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文 参考訳(メタデータ) (2024-02-27T13:44:09Z) - LLMArena: Assessing Capabilities of Large Language Models in Dynamic
Multi-Agent Environments [35.926581910260076]
マルチエージェント動的環境における大規模言語モデルの能力を評価するためのフレームワークであるLLMArenaを紹介する。
LLArenaはTrueskillスコアを使用して、空間推論、戦略的計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価する。
我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、完全に自律的なエージェントへと発展する上で、依然として重要な道のりを歩んでいることを示す。
論文 参考訳(メタデータ) (2024-02-26T11:31:48Z) - Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。