論文の概要: ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents
- arxiv url: http://arxiv.org/abs/2508.04038v1
- Date: Wed, 06 Aug 2025 02:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.514422
- Title: ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents
- Title(参考訳): ZARA:知識・検索型LLMエージェントによるゼロショットモーション時系列解析
- Authors: Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim,
- Abstract要約: ZARAは、ゼロショットで説明可能なアクティビティ認識のためのエージェントベースのフレームワークである。
ペアワイズ機能知識ベース、マルチセンサー検索モジュール、階層型エージェントパイプラインを統合している。
実験では、ZARAはマクロF1において最強のベースラインを2.53倍越えながら明確な推論を達成している。
- 参考スコア(独自算出の注目度): 9.808386777624758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion sensor time-series are central to human activity recognition (HAR), with applications in health, sports, and smart devices. However, existing methods are trained for fixed activity sets and require costly retraining when new behaviours or sensor setups appear. Recent attempts to use large language models (LLMs) for HAR, typically by converting signals into text or images, suffer from limited accuracy and lack verifiable interpretability. We propose ZARA, the first agent-based framework for zero-shot, explainable HAR directly from raw motion time-series. ZARA integrates an automatically derived pair-wise feature knowledge base that captures discriminative statistics for every activity pair, a multi-sensor retrieval module that surfaces relevant evidence, and a hierarchical agent pipeline that guides the LLM to iteratively select features, draw on this evidence, and produce both activity predictions and natural-language explanations. ZARA enables flexible and interpretable HAR without any fine-tuning or task-specific classifiers. Extensive experiments on 8 HAR benchmarks show that ZARA achieves SOTA zero-shot performance, delivering clear reasoning while exceeding the strongest baselines by 2.53x in macro F1. Ablation studies further confirm the necessity of each module, marking ZARA as a promising step toward trustworthy, plug-and-play motion time-series analysis. Our codes are available at https://github.com/zechenli03/ZARA.
- Abstract(参考訳): モーションセンサーの時系列は、人間の活動認識(HAR)の中心であり、健康、スポーツ、スマートデバイスに応用されている。
しかし、既存のメソッドは、固定されたアクティビティセットのためにトレーニングされており、新しい振る舞いやセンサーのセットアップが現れると、コストがかかる。
近年の大規模言語モデル(LLM)をHARに使用しようとする試みは、信号のテキストや画像への変換が一般的であり、精度が制限され、検証可能性の欠如に悩まされている。
ZARAはゼロショットで説明可能なHARを原動時系列から直接生成する最初のエージェントベースフレームワークである。
ZARAは、すべてのアクティビティペアの識別統計をキャプチャする自動生成のペア機能知識ベース、関連するエビデンスをサーチするマルチセンサー検索モジュール、LLMを反復的に選択し、このエビデンスを引き合いに出し、アクティビティ予測と自然言語説明の両方を生成する階層型エージェントパイプラインを統合する。
ZARAは、微調整やタスク固有の分類なしで、柔軟で解釈可能なHARを可能にする。
8つのHARベンチマークにおいて、ZARAはSOTAゼロショットのパフォーマンスを達成し、マクロF1において最強のベースラインを2.53倍超えながら明確な推論を提供することを示した。
アブレーション研究は、各モジュールの必要性をさらに確認し、ZARAを信頼に値するプラグアンドプレイモーション時系列分析に向けた有望なステップと位置づけている。
私たちのコードはhttps://github.com/zechenli03/ZARA.comで公開されています。
関連論文リスト
- DailyLLM: Context-Aware Activity Log Generation Using Multi-Modal Sensors and LLMs [14.27376916222904]
DailyLLMは4次元にわたるコンテキスト活動情報を包括的に統合する最初のログ生成および要約システムである。
DailyLLMは、最先端(SOTA)ログ生成方法よりも優れており、パーソナルコンピュータやRaspberry Piに効率的にデプロイできる。
論文 参考訳(メタデータ) (2025-07-18T08:33:30Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - SensorLLM: Human-Intuitive Alignment of Multivariate Sensor Data with LLMs for Activity Recognition [9.072495000412943]
本稿では,Large Language Models(LLM)がウェアラブルセンサデータからHAR(Human Activity Recognition)を実現するためのフレームワークであるSensorLLMを紹介する。
多様なHARシナリオにまたがる人間の直感的なセンサテキストペアの質問応答データセットであるSensorQAを構築した。
その結果,SensorLLMは人間の直感的アライメントによって誘導され,多様なHAR設定にまたがる効果的なセンサ学習者,推論者,分類者となることがわかった。
論文 参考訳(メタデータ) (2024-10-14T15:30:41Z) - Language-centered Human Activity Recognition [8.925867647929088]
Inertial Measurement Unit(IMU)センサーを用いたHAR(Human Activity Recognition)は、医療、安全、産業生産における応用において重要である。
アクティビティパターン、デバイスタイプ、センサー配置のバリエーションは、データセット間の分散ギャップを生成する。
本稿では,センサの読み書きとアクティビティラベルのセマンティック解釈を生成するシステムであるLanHARを提案する。
論文 参考訳(メタデータ) (2024-09-12T22:57:29Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Temporal Action Localization for Inertial-based Human Activity Recognition [9.948823510429902]
ビデオベースのヒューマンアクティビティ認識(TAL)は、任意の長さのタイムラインでアクティビティセグメントをローカライズするセグメントベースの予測アプローチに従っている。
本論文は、オフラインとニアオンラインのHAR(Human Activity Recognition)における最先端のTALモデルの適用性を体系的に示す最初のものである。
時系列全体を解析することにより、TALモデルはよりコヒーレントなセグメントを生成し、全てのデータセットに対して高いNULLクラス精度を実現することができることを示す。
論文 参考訳(メタデータ) (2023-11-27T13:55:21Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Semantics-Guided Contrastive Network for Zero-Shot Object detection [67.61512036994458]
ゼロショット物体検出(ZSD)はコンピュータビジョンにおける新しい課題である。
ゼロショット検出の領域にコントラスト学習機構をもたらすフレームワークであるContrastZSDを開発した。
本手法は,ZSDタスクと一般化ZSDタスクの両方において,従来の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2021-09-04T03:32:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。