論文の概要: Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition
- arxiv url: http://arxiv.org/abs/2509.10729v1
- Date: Fri, 12 Sep 2025 22:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.753318
- Title: Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition
- Title(参考訳): マルチモーダル・センサ・フュージョンにおけるLCMを用いた活動認識
- Authors: Ilker Demirel, Karan Thakkar, Benjamin Elizalde, Miquel Espi Marques, Shirley Ren, Jaya Narain,
- Abstract要約: 大規模言語モデル (LLMs) は、音声および動作時系列データからのアクティビティ分類のための後期融合に使用できる。
我々は、Ego4Dデータセットからコンテキスト(世帯活動、スポーツなど)にまたがる多様な活動認識のためのデータのサブセットをキュレートした。
- 参考スコア(独自算出の注目度): 11.666448259822664
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sensor data streams provide valuable information around activities and context for downstream applications, though integrating complementary information can be challenging. We show that large language models (LLMs) can be used for late fusion for activity classification from audio and motion time series data. We curated a subset of data for diverse activity recognition across contexts (e.g., household activities, sports) from the Ego4D dataset. Evaluated LLMs achieved 12-class zero- and one-shot classification F1-scores significantly above chance, with no task-specific training. Zero-shot classification via LLM-based fusion from modality-specific models can enable multimodal temporal applications where there is limited aligned training data for learning a shared embedding space. Additionally, LLM-based fusion can enable model deploying without requiring additional memory and computation for targeted application-specific multimodal models.
- Abstract(参考訳): センサデータストリームは、ダウンストリームアプリケーションのためのアクティビティやコンテキストに関する貴重な情報を提供するが、補完的な情報を統合するのは難しい。
大規模言語モデル (LLM) を用いて, 音声・動作時系列データから活動分類を行う。
Ego4Dデータセットから、コンテキスト(家庭内活動、スポーツなど)にまたがる多様な活動認識のためのデータのサブセットをキュレートした。
評価されたLLMは12クラスのゼロとワンショットの分類F1スコアを達成したが、タスク固有の訓練は行われなかった。
LLMをベースとしたモダリティ特化モデルからの融合によるゼロショット分類は、共有埋め込み空間を学習するための整列トレーニングデータに制限がある場合のマルチモーダル時間的応用を可能にする。
さらに、LLMベースのフュージョンは、ターゲットとするアプリケーション固有のマルチモーダルモデルに対して、追加のメモリや計算を必要とせずにモデル展開を可能にする。
関連論文リスト
- Large Language Models are Few-shot Multivariate Time Series Classifiers [23.045734479292356]
大規模言語モデル (LLM) は時系列解析に広く応用されている。
しかし、数発の分類(すなわち重要な訓練シナリオ)におけるそれらの実用性は過小評価されている。
データ不足を克服するために,LLMの学習済み知識を幅広く活用することを目的としている。
論文 参考訳(メタデータ) (2025-01-30T03:59:59Z) - Multimodal LLM for Intelligent Transportation Systems [0.0]
本稿では,アプリケーション,機械学習手法,ハードウェア機器の交わりをカプセル化する新しい3次元フレームワークを提案する。
複数の機械学習アルゴリズムを使う代わりに、我々のフレームワークは時系列、画像、ビデオを分析する単一のデータ中心のLLMアーキテクチャを使用する。
我々は,このLLMフレームワークを,Oxford Radar RobotCar,D-Behavior (D-Set),MotionalのnuScenes,Comma2k19など,さまざまなセンサデータセットに適用した。
論文 参考訳(メタデータ) (2024-12-16T11:50:30Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Are You Being Tracked? Discover the Power of Zero-Shot Trajectory
Tracing with LLMs! [3.844253028598048]
LLMTrackは、ゼロショット軌道認識にLLMをどのように活用できるかを示すモデルである。
本研究では,屋内シナリオと屋外シナリオを特徴とする異なる軌跡を用いて,現実のデータセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-03-10T12:50:35Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。