論文の概要: Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning
- arxiv url: http://arxiv.org/abs/2507.18252v1
- Date: Thu, 24 Jul 2025 09:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.33913
- Title: Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning
- Title(参考訳): アイトラックとLDMに基づく推論を用いたマルチモーダル行動パターン解析
- Authors: Dongyang Guo, Yasmeen Abdrabou, Enkeleda Thaqi, Enkelejda Kasneci,
- Abstract要約: 視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.054910727620154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eye-tracking data reveals valuable insights into users' cognitive states but is difficult to analyze due to its structured, non-linguistic nature. While large language models (LLMs) excel at reasoning over text, they struggle with temporal and numerical data. This paper presents a multimodal human-AI collaborative framework designed to enhance cognitive pattern extraction from eye-tracking signals. The framework includes: (1) a multi-stage pipeline using horizontal and vertical segmentation alongside LLM reasoning to uncover latent gaze patterns; (2) an Expert-Model Co-Scoring Module that integrates expert judgment with LLM output to generate trust scores for behavioral interpretations; and (3) a hybrid anomaly detection module combining LSTM-based temporal modeling with LLM-driven semantic analysis. Our results across several LLMs and prompt strategies show improvements in consistency, interpretability, and performance, with up to 50% accuracy in difficulty prediction tasks. This approach offers a scalable, interpretable solution for cognitive modeling and has broad potential in adaptive learning, human-computer interaction, and educational analytics.
- Abstract(参考訳): 視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
大規模言語モデル(LLM)はテキストよりも推論が優れているが、時間的・数値的なデータに苦しむ。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
本フレームワークは,(1) 横方向と垂直方向のセグメンテーションを用いた多段階パイプラインと,(2) 潜在視線パターンの解明,(2) 専門家による判断とLCM出力の統合による行動解釈の信頼スコアの生成,(3) LSTMに基づく時間的モデリングとLSM駆動意味分析を組み合わせたハイブリッド異常検出モジュールを含む。
提案手法は,複数のLCMにまたがって,一貫性,解釈可能性,性能が向上し,予測作業の難易度が最大50%向上したことを示す。
このアプローチは、認知モデリングのためのスケーラブルで解釈可能なソリューションを提供し、適応学習、人間とコンピュータのインタラクション、教育分析に幅広い可能性を持っている。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - An LLM Feature-based Framework for Dialogue Constructiveness Assessment [8.87747076871578]
対話構築性評価に関する研究は、(i)個人が特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げること、および(ii)そのような事例に対する対話に続く構成性の結果を予測することに焦点を当てている。
これらの目的は、解釈可能な特徴ベースモデルか、事前訓練された言語モデルのようなニューラルモデルのいずれかをトレーニングすることで達成できる。
特徴ベースとニューラルアプローチの強みを組み合わせた対話構築性評価のためのLLM特徴ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T22:10:52Z) - Verbalized Probabilistic Graphical Modeling [8.524824578426962]
本稿では,自然言語における確率的グラフモデル (PGM) の重要な原理をシミュレートするために,動詞型確率的グラフィカルモデリング (vPGM) を提案する。
vPGMは専門家主導のモデル設計をバイパスし、仮定やデータ不足のシナリオに適している。
以上の結果から,本モデルは信頼性校正とテキスト生成品質を効果的に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T16:35:31Z) - Understanding Large Language Model Behaviors through Interactive Counterfactual Generation and Analysis [22.755345889167934]
本稿では,大規模言語モデル (LLM) の対実解析による探索を可能にする対話型可視化システムを提案する。
本システムは,意味論的に意味のある反事実を生成する新しいアルゴリズムを特徴とする。
LLM実践者とのユーザスタディと専門家とのインタビューは、システムのユーザビリティと有効性を示している。
論文 参考訳(メタデータ) (2024-04-23T19:57:03Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。