論文の概要: From Gaze to Guidance: Interpreting and Adapting to Users' Cognitive Needs with Multimodal Gaze-Aware AI Assistants
- arxiv url: http://arxiv.org/abs/2604.08062v1
- Date: Thu, 09 Apr 2026 10:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.860522
- Title: From Gaze to Guidance: Interpreting and Adapting to Users' Cognitive Needs with Multimodal Gaze-Aware AI Assistants
- Title(参考訳): 視線から誘導へ:マルチモーダル視線認識AIアシスタントによるユーザの認知的ニーズの解釈と適応
- Authors: Valdemar Danry, Javier Hernandez, Andrew Wilson, Pattie Maes, Judith Amores,
- Abstract要約: 我々は、視線オーバーレイを用いた自我中心ビデオを用いた、視線付きマルチモーダルLLMアシスタントを提案する。
従来のLLMアシスタントと比較して、視線認識アシスタントははるかに正確でパーソナライズされた。
- 参考スコア(独自算出の注目度): 28.551571494174723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current LLM assistants are powerful at answering questions, but they have limited access to the behavioral context that reveals when and where a user is struggling. We present a gaze-grounded multimodal LLM assistant that uses egocentric video with gaze overlays to identify likely points of difficulty and target follow-up retrospective assistance. We instantiate this vision in a controlled study (n=36) comparing the gaze-aware AI assistant to a text-only LLM assistant. Compared to a conventional LLM assistant, the gaze-aware assistant was rated as significantly more accurate and personalized in its assessments of users' reading behavior and significantly improved people's ability to recall information. Users spoke significantly fewer words with the gaze-aware assistant, indicating more efficient interactions. Qualitative results underscored both perceived benefits in comprehension and challenges when interpretations of gaze behaviors were inaccurate. Our findings suggest that gaze-aware LLM assistants can reason about cognitive needs to improve cognitive outcomes of users.
- Abstract(参考訳): 現在のLLMアシスタントは質問に答える能力があるが、ユーザがいつ、どこで苦労しているかを明らかにする行動コンテキストへのアクセスは限られている。
本稿では,視線オーバーレイを付した自我中心ビデオを用いた視線付きマルチモーダルLLMアシスタントを提案し,視線追従支援を目標とした視線追従支援を行う。
我々は、このビジョンを制御された研究(n=36)で、視線認識AIアシスタントとテキストのみのLLMアシスタントと比較する。
従来のLLMアシスタントと比較して、視線認識アシスタントはユーザの読書行動の評価において、はるかに正確でパーソナライズされ、情報のリコール能力が大幅に向上した。
ユーザは、視線認識アシスタントを使って、より効率的な対話を示す言葉をはるかに少なく話した。
質的な結果は、視線行動の解釈が不正確である場合の理解と課題の双方の利点を裏付けた。
以上の結果から,視線を意識したLCMアシスタントは,ユーザの認知的結果を改善するための認知的ニーズを判断できる可能性が示唆された。
関連論文リスト
- In the Eye of MLLM: Benchmarking Egocentric Video Intent Understanding with Gaze-Guided Prompting [12.567763863700058]
EgoGazeVQAは、エゴセントリックな視線誘導型ビデオ質問応答ベンチマークである。
実験の結果,既存のMLLMはユーザの意図を正確に解釈するのに苦労していることがわかった。
我々の視線誘導インテントプロンプト法は性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-09T07:11:56Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Conversational AI as a Coding Assistant: Understanding Programmers' Interactions with and Expectations from Large Language Models for Coding [5.064404027153094]
大規模言語モデル(LLM)を利用した会話型AIインタフェースは、コーディングアシスタントとしてますます利用されている。
本研究は,LLM駆動型コーディングアシスタントにおけるプログラマの利用パターン,知覚,インタラクション戦略について検討する。
論文 参考訳(メタデータ) (2025-03-14T15:06:07Z) - Less or More: Towards Glanceable Explanations for LLM Recommendations Using Ultra-Small Devices [18.152622340129838]
大規模言語モデル(LLM)は、パーソナルAIアシスタントとして日々の行動を推奨する大きな可能性を示している。
現在、パーソナルAIアシスタントは、画面スペースが限られているスマートウォッチのような超小型デバイスの上に置かれていることが多い。
LLMが生成した説明の冗長性は、このような超小型デバイスに一見可能な説明を提供することを困難にしている。
論文 参考訳(メタデータ) (2025-02-26T18:55:26Z) - Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - I Need Help! Evaluating LLM's Ability to Ask for Users' Support: A Case Study on Text-to-SQL Generation [60.00337758147594]
本研究では,LLMのユーザサポートを積極的に行う能力について検討する。
性能改善とユーザ負担のトレードオフを評価する指標を提案する。
我々の実験は、外部からのフィードバックがなければ、多くのLCMがユーザサポートの必要性を認識するのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-07-20T06:12:29Z) - Why and When LLM-Based Assistants Can Go Wrong: Investigating the
Effectiveness of Prompt-Based Interactions for Software Help-Seeking [5.755004576310333]
大規模言語モデル(LLM)アシスタントは、ユーザーがソフトウェアをナビゲートするための検索方法の潜在的な代替手段として登場した。
LLMアシスタントは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、人間のようなインタラクションを模倣する。
論文 参考訳(メタデータ) (2024-02-12T19:49:58Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - Assisted Perception: Optimizing Observations to Communicate State [112.40598205054994]
我々は、ロボット遠隔操作や視覚障害のあるナビゲーションといったタスクにおいて、ユーザが世界の状態を見積もるのを支援することを目的としている。
ユーザによって処理された場合、より正確な内部状態推定につながる新しい観測結果を合成する。
論文 参考訳(メタデータ) (2020-08-06T19:08:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。