Fugu-MT 論文翻訳(概要): LLaSA: Large Multimodal Agent for Human Activity Analysis Through Wearable Sensors

論文の概要: LLaSA: Large Multimodal Agent for Human Activity Analysis Through Wearable Sensors

arxiv url: http://arxiv.org/abs/2406.14498v1
Date: Thu, 20 Jun 2024 17:00:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 12:33:17.533894
Title: LLaSA: Large Multimodal Agent for Human Activity Analysis Through Wearable Sensors
Title（参考訳）: LLaSA:ウェアラブルセンサーによる人間の活動分析のための大規模マルチモーダルエージェント
Authors: Sheikh Asif Imran, Mohammad Nur Hossain Khan, Subrata Biswas, Bashima Islam,
Abstract要約: 慣性測定ユニット(IMU)と大言語モデル(LLM)を統合することで、人間の活動理解を強化することでマルチモーダルAIが進歩する。我々は,26,288 IMU由来のアクティビティナレーションのデータセットであるSensorCapsと,257,562対の質問応答データセットであるOpenSQAを紹介する。 LLaSA(Large Multimodal Agent, 大規模マルチモーダルエージェント)を開発した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Integrating inertial measurement units (IMUs) with large language models (LLMs) advances multimodal AI by enhancing human activity understanding. We introduce SensorCaps, a dataset of 26,288 IMU-derived activity narrations, and OpenSQA, an instruction-following dataset with 257,562 question-answer pairs. Combining LIMU-BERT and Llama, we develop LLaSA, a Large Multimodal Agent capable of interpreting and responding to activity and motion analysis queries. Our evaluation demonstrates LLaSA's effectiveness in activity classification and question answering, highlighting its potential in healthcare, sports science, and human-computer interaction. These contributions advance sensor-aware language models and open new research avenues. Our code repository and datasets can be found on https://github.com/BASHLab/LLaSA.
Abstract（参考訳）: 慣性測定ユニット(IMU)と大言語モデル(LLM)を統合することで、人間の活動理解を強化することでマルチモーダルAIが進歩する。我々は、26,288 IMU由来のアクティビティナレーションのデータセットであるSensorCapsと、257,562の質問応答ペアを持つ命令追従データセットであるOpenSQAを紹介する。 LIMU-BERTとLlamaを組み合わせたLLaSAを開発した。本評価は, LLaSAが活動分類や質問応答において有効であることを示し, 医療, スポーツ科学, 人とコンピュータの相互作用におけるその可能性を明らかにするものである。これらの貢献により、センサー対応言語モデルと新しい研究の道が開かれた。コードリポジトリとデータセットはhttps://github.com/BASHLab/LLaSA.comで確認できます。

関連論文リスト

From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文参考訳（メタデータ） (2025-12-22T18:58:12Z)
SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文参考訳（メタデータ） (2025-09-12T02:53:57Z)
ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents [9.808386777624758]
ZARAは、ゼロショットで説明可能なアクティビティ認識のためのエージェントベースのフレームワークである。ペアワイズ機能知識ベース、マルチセンサー検索モジュール、階層型エージェントパイプラインを統合している。実験では、ZARAはマクロF1において最強のベースラインを2.53倍越えながら明確な推論を達成している。
論文参考訳（メタデータ） (2025-08-06T02:57:57Z)
Small Encoders Can Rival Large Decoders in Detecting Groundedness [45.13986921082049]
大規模言語モデル(LLM)を外部コンテキストで拡張することで、自然言語処理(NLP)タスクのパフォーマンスが大幅に向上する。本研究は,LLMによるコストのかかる回答生成の前に,与えられたクエリがコンテキストで提供されるドキュメントにグラウンドドされているかを検出することに焦点を当てる。我々は,RoBERTa や NomicBERT などの軽量なタスク固有エンコーダモデルにおいて,キュレートされたデータセットを微調整することで,最先端の LLM に匹敵する精度が得られることを示す。
論文参考訳（メタデータ） (2025-06-26T14:09:41Z)
SensorLM: Learning the Language of Wearable Sensors [50.95988682423808]
本稿では,自然言語によるウェアラブルセンサデータ理解を可能にするセンサ言語基盤モデルのファミリーであるSensorLMを紹介する。本稿では,センサデータから統計的,構造的,意味的な情報を収集する階層的なキャプション生成パイプラインを提案する。このアプローチにより、これまでで最大のセンサー言語データセットのキュレーションが可能となり、103,000人以上から5970万時間以上のデータを収集した。
論文参考訳（メタデータ） (2025-06-10T17:13:09Z)
MuRAL: A Multi-Resident Ambient Sensor Dataset Annotated with Natural Language for Activities of Daily Living [4.187145402358247]
自然言語を用いた最初のマルチレジデント・アンビエント・センサ・データセットであるMuRALを紹介する。 Muralには、きめ細かい自然言語の記述、常駐のアイデンティティ、ハイレベルなアクティビティラベルが添付されている。我々は、課題割り当て、アクション記述、アクティビティ分類の3つのコアタスクに対して、最先端のLLMを用いてMuRALをベンチマークする。
論文参考訳（メタデータ） (2025-04-29T07:46:14Z)
Leveraging Large Language Models for Explainable Activity Recognition in Smart Homes: A Critical Evaluation [0.29998889086656577]
XAIは、スマートホームにおけるセンサによる日常生活活動(ADL)認識に適用されている。本稿では,XAIとLarge Language Models(LLM)を組み合わせたセンサを用いたADL認識の可能性について検討する。
論文参考訳（メタデータ） (2025-03-20T18:23:03Z)
SensorChat: Answering Qualitative and Quantitative Questions during Long-Term Multimodal Sensor Interactions [7.549011805153971]
SensorChatは、日常生活監視用に設計された最初のエンドツーエンドQAシステムである。数値的精度を必要とする量的問題と、高レベルの推論を必要とする定性的問題の両方を扱う。答えの精度は、定量的な質問に対する最先端のシステムよりも93%高い。
論文参考訳（メタデータ） (2025-02-05T04:41:59Z)
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文参考訳（メタデータ） (2024-10-17T15:08:21Z)
SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing [6.8009140511761546]
大規模言語モデル(LLM)は、知覚データを処理する上で有望な能力を持ち、センサーシステムを開発するための副操縦士としての可能性を示している。我々は,定量化のための総合的なベンチマークであるSensorBenchを構築した。以上の結果から,LLMは単純なタスクでかなりの習熟度を示す一方で,構成タスクの処理において固有の課題に直面していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-14T17:21:39Z)
SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition [9.072495000412943]
本稿では,Large Language Models(LLM)がセンサデータからHAR(Human Activity Recognition)を実現するためのフレームワークであるSensorLLMを紹介する。 SensorLLMは、各センサチャネルに特別なトークンを導入するSensor-Language Alignmentステージを通じて制限に対処する。その後のタスク・アウェア・チューニングの段階では、HAR分類のモデルを洗練し、最先端の手法に適合または超越した性能を達成する。
論文参考訳（メタデータ） (2024-10-14T15:30:41Z)
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。 LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文参考訳（メタデータ） (2024-10-13T05:26:36Z)
Large Language Models are Zero-Shot Recognizers for Activities of Daily Living [0.29998889086656577]
LLMに基づく新しいADL認識システムであるADL-LLMを提案する。 ADL-LLMは、生センサデータをLLMによって処理されたテキスト表現に変換し、ゼロショットADL認識を行う。 ADL-LLMを2つの公開データセット上で評価し,その有効性を示した。
論文参考訳（メタデータ） (2024-07-01T12:32:38Z)
QuickLLaMA: Query-aware Inference Acceleration for Large Language Models [94.82978039567236]
大規模言語モデルに対するクエリ対応推論(Q-LLM)を導入する。 Q-LLMは、人間の認知に似た広範囲なシーケンスを処理するように設計されている。特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対して正確な回答を提供する。
論文参考訳（メタデータ） (2024-06-11T17:55:03Z)
Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文参考訳（メタデータ） (2024-05-09T07:47:25Z)
Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。 character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文参考訳（メタデータ） (2024-03-19T02:25:29Z)
HARGPT: Are LLMs Zero-Shot Human Activity Recognizers? [9.414529772034985]
我々は,Large Language Models (LLM) が生のIMUデータを理解し,ゼロショットで人間の活動認識タスクを実行できることを示す。我々は、GPT4上のHARGPTを、クラス間の類似性の異なる2つの公開データセットを用いてベンチマークし、従来の機械学習と最先端の深い分類モデルの両方に基づいて、様々なベースラインを比較した。注目すべきは、LLMは生のIMUデータから人間の活動を認識し、両方のデータセットのベースラインを一貫して上回っていることだ。
論文参考訳（メタデータ） (2024-03-05T07:34:51Z)
BASES: Large-scale Web Search User Simulation with Large Language Model based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。 WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文参考訳（メタデータ） (2024-02-27T13:44:09Z)
LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments [35.926581910260076]
マルチエージェント動的環境における大規模言語モデルの能力を評価するためのフレームワークであるLLMArenaを紹介する。 LLArenaはTrueskillスコアを使用して、空間推論、戦略的計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価する。我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、完全に自律的なエージェントへと発展する上で、依然として重要な道のりを歩んでいることを示す。
論文参考訳（メタデータ） (2024-02-26T11:31:48Z)
Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文参考訳（メタデータ） (2024-01-21T23:36:14Z)
MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文参考訳（メタデータ） (2024-01-16T18:59:45Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文参考訳（メタデータ） (2023-10-20T06:49:32Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
LLMDet: A Third Party Large Language Models Generated Text Detection Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文参考訳（メタデータ） (2023-05-24T10:45:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。