論文の概要: Evaluating Visual Prompts with Eye-Tracking Data for MLLM-Based Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2604.09585v1
- Date: Fri, 27 Feb 2026 02:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.520999
- Title: Evaluating Visual Prompts with Eye-Tracking Data for MLLM-Based Human Activity Recognition
- Title(参考訳): MLLMに基づく人間の活動認識のための視線追跡データを用いた視覚プロンプトの評価
- Authors: Jae Young Choi, Seon Gyeom Kim, Hyungjun Yoon, Taeckyung Lee, Donggun Lee, Jaeryung Chung, Jihyung Kil, Ryan Rossi, Sung-Ju Lee, Tak Yeon Lee,
- Abstract要約: 大規模言語モデル(LLM)は、ヒューマンアクティビティ認識(HAR)のようなIoTアプリケーションの基盤モデルとして登場した。
眼球追跡データを用いたマルチモーダルLCMへの入力としてセンサ信号をデータ可視化画像に変換する視覚的プロンプト戦略について検討する。
我々の研究結果は、視覚的プロンプトはアイトラッキングデータに対してトークン効率が高くスケーラブルな表現を提供し、MLLMがIoTコンテキストにおける高周波センサ信号を効果的に推論できる可能性を強調していることを示唆している。
- 参考スコア(独自算出の注目度): 22.787441422229207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have emerged as foundation models for IoT applications such as human activity recognition (HAR). However, directly applying high-frequency and multi-dimensional sensor data, such as eye-tracking data, leads to information loss and high token costs. To mitigate this, we investigate a visual prompting strategy that transforms sensor signals into data visualization images as an input to multimodal LLMs (MLLMs) using eye-tracking data. We conducted a systematic evaluation of MLLM-based HAR across three public eye-tracking datasets using three visualization types of timeline, heatmap, and scanpath, under varying temporal window sizes. Our findings suggest that visual prompting provides a token-efficient and scalable representation for eye-tracking data, highlighting its potential to enable MLLMs to effectively reason over high-frequency sensor signals in IoT contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ヒューマンアクティビティ認識(HAR)などのIoTアプリケーションの基盤モデルとして登場した。
しかし,視線追跡データなどの高周波数・多次元センサデータを直接適用すると,情報損失やトークンコストが高くなる。
眼球追跡データを用いて,センサ信号をMLLM(Multimodal LLM)への入力としてデータ可視化画像に変換する視覚的プロンプト戦略について検討する。
時系列, ヒートマップ, スキャンパスの3種類の可視化データを用いて, MLLMを用いた3つの視線追跡データセットに対して, 時間窓の大きさの異なるMLLMベースのHARの系統的評価を行った。
我々の研究結果は、視覚的プロンプトはアイトラッキングデータに対してトークン効率が高くスケーラブルな表現を提供し、MLLMがIoTコンテキストにおける高周波センサ信号を効果的に推論できる可能性を強調していることを示唆している。
関連論文リスト
- From Words to Wavelengths: VLMs for Few-Shot Multispectral Object Detection [7.459632891054827]
マルチスペクトル物体検出は、自律運転や監視といった安全に敏感なアプリケーションに不可欠である。
近年のコンピュータビジョンにおけるビジョン・ランゲージ・モデルの成功に触発されて、我々は、数発のマルチスペクトル物体検出の可能性を探る。
論文 参考訳(メタデータ) (2025-12-17T21:06:36Z) - Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。
本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。
本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T17:59:12Z) - Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting [24.39281384670957]
マルチモーダル大言語モデル(MLLM)を用いたセンサデータに対する視覚的プロンプト手法を提案する。
我々は,MLLMの視覚的プロンプトを設計し,ターゲットの知覚タスク記述と並行して可視化されたセンサデータを活用する。
本研究は,4つの知覚モダリティを含む9つの感覚タスクに対するアプローチを評価し,テキストベースのプロンプトよりも平均10%高い精度を達成する。
論文 参考訳(メタデータ) (2024-07-15T01:33:54Z) - HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。