論文の概要: On-device Large Multi-modal Agent for Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2512.19742v1
- Date: Wed, 17 Dec 2025 22:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.617522
- Title: On-device Large Multi-modal Agent for Human Activity Recognition
- Title(参考訳): 人間活動認識のためのオンデバイス大型マルチモーダルエージェント
- Authors: Md Shakhrul Iman Siam, Ishtiaque Ahmed Showmik, Guanqun Song, Ting Zhu,
- Abstract要約: HAR(Human Activity Recognition)は、医療からスマート環境に至るまで、研究の活発な領域である。
近年のLarge Language Models (LLMs) の進歩は、HARにおけるその能力を活用する新たな可能性を開いた。
本稿では,HARのための大規模マルチモーダルエージェントを提案する。
- 参考スコア(独自算出の注目度): 1.9342524451932614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human Activity Recognition (HAR) has been an active area of research, with applications ranging from healthcare to smart environments. The recent advancements in Large Language Models (LLMs) have opened new possibilities to leverage their capabilities in HAR, enabling not just activity classification but also interpretability and human-like interaction. In this paper, we present a Large Multi-Modal Agent designed for HAR, which integrates the power of LLMs to enhance both performance and user engagement. The proposed framework not only delivers activity classification but also bridges the gap between technical outputs and user-friendly insights through its reasoning and question-answering capabilities. We conduct extensive evaluations using widely adopted HAR datasets, including HHAR, Shoaib, Motionsense to assess the performance of our framework. The results demonstrate that our model achieves high classification accuracy comparable to state-of-the-art methods while significantly improving interpretability through its reasoning and Q&A capabilities.
- Abstract(参考訳): HAR(Human Activity Recognition)は、医療からスマート環境に至るまで、研究の活発な領域である。
最近のLLM(Large Language Models)の進歩は、HARの能力を活用する新たな可能性を開き、アクティビティの分類だけでなく、解釈可能性や人間のようなインタラクションも可能にしている。
本稿では,HARのための大規模マルチモーダルエージェントを提案する。
提案するフレームワークは,アクティビティの分類を提供するだけでなく,技術的アウトプットとユーザフレンドリな洞察のギャップを,推論と質問応答機能を通じて埋める。
HHAR,Shoaib,Motionsenseなど,広く採用されているHARデータセットを用いて,フレームワークの性能評価を行う。
その結果,本モデルは最先端手法に匹敵する高い分類精度を達成し,その推論とQ&A能力により解釈性を大幅に向上することを示した。
関連論文リスト
- RAG-HAR: Retrieval Augmented Generation-based Human Activity Recognition [5.089700375729287]
大規模言語モデル(LLMs)を利用したHAR(Human Activity Recognition)のためのトレーニング不要検索拡張フレームワークであるRAG-HARを紹介する。
RAG-HARは軽量な統計記述子を計算し、ベクトルデータベースから意味論的に類似したサンプルを検索し、この文脈的エビデンスを用いてLCMに基づく行動識別を行う。
論文 参考訳(メタデータ) (2025-12-06T01:53:02Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Towards Generalizable Human Activity Recognition: A Survey [4.08377734173712]
IMUに基づくHuman Activity Recognition (HAR)は近年,学界と産業の双方から注目を集めている。
HARのパフォーマンスは特定のシナリオで大幅に改善されているが、その一般化機能は、現実世界で広く採用される上で重要な障壁であり続けている。
本稿では、IMUベースの一般化可能なHARの急速に発展する分野を探求し、229の論文と25の公開データセットをレビューする。
論文 参考訳(メタデータ) (2025-08-17T03:04:39Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - A Comparative Study of Human Activity Recognition: Motion, Tactile, and multi-modal Approaches [43.97520291340696]
本研究は、視覚に基づく触覚センサが15のアクティビティを分類する能力を評価する。
触覚とモーションデータを組み合わせたマルチモーダル・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T15:20:21Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Are Visual-Language Models Effective in Action Recognition? A Comparative Study [22.97135293252601]
本稿では,最先端のビジョン基盤モデルに関する大規模研究と知見を提供する。
ゼロショットとフレームワイドのアクション認識タスクへの転送能力を比較する。
最近の微粒な人間中心の行動認識データセットで実験を行う。
論文 参考訳(メタデータ) (2024-10-22T16:28:21Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Multi-level Contrast Network for Wearables-based Joint Activity
Segmentation and Recognition [10.828099015828693]
ウェアラブルを用いたヒューマンアクティビティ認識(HAR)は、多くのスマートヘルスケアアプリケーションで広く採用可能な、有望な研究である。
ほとんどのHARアルゴリズムは、必要不可欠なが滅多に悪用されないマルチクラスウィンドウ問題の影響を受けやすい。
我々は,HARにセグメンテーション技術を導入し,共同活動セグメンテーションと認識を実現した。
論文 参考訳(メタデータ) (2022-08-16T05:39:02Z) - FIVES: Feature Interaction Via Edge Search for Large-Scale Tabular Data [106.76845921324704]
本稿では,FIVES (Feature Interaction Via Edge Search) という新しい手法を提案する。
FIVESは、定義された特徴グラフ上のエッジを探すために、インタラクティブな特徴生成のタスクを定式化する。
本稿では,対話的特徴の探索を動機づける理論的証拠を提示する。
論文 参考訳(メタデータ) (2020-07-29T03:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。