論文の概要: Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding
- arxiv url: http://arxiv.org/abs/2510.21356v1
- Date: Fri, 24 Oct 2025 11:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.450732
- Title: Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding
- Title(参考訳): Gaze-VLM:自己中心的理解のための注意規則化によるBridging GazeとVLM
- Authors: Anupam Pani, Yanchao Yang,
- Abstract要約: 視線は注意、短期的意図、将来の行動に関する貴重な手がかりを提供する。
本稿では,2つの重要な自我中心的理解タスクに対して,VLMを強化した視線規則化フレームワークを提案する。
本稿では,人間の視線とモデル焦点を一致させる視線調整型注意機構を提案する。
- 参考スコア(独自算出の注目度): 7.281396624646809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Eye gaze offers valuable cues about attention, short-term intent, and future actions, making it a powerful signal for modeling egocentric behavior. In this work, we propose a gaze-regularized framework that enhances VLMs for two key egocentric understanding tasks: fine-grained future event prediction and current activity understanding. Unlike prior approaches that rely solely on visual inputs or use gaze as an auxiliary input signal , our method uses gaze only during training. We introduce a gaze-regularized attention mechanism that aligns model focus with human visual gaze. This design is flexible and modular, allowing it to generalize across multiple VLM architectures that utilize attention. Experimental results show that our approach improves semantic prediction scores by up to 11 for future event prediction and around 7 for current activity understanding, compared to the corresponding baseline models trained without gaze regularization. These results highlight the value of gaze-guided training in improving the accuracy and robustness of egocentric VLMs. Overall, this work establishes a foundation for using human gaze to enhance the predictive capabilities of VLMs in real-world scenarios like assistive robots and human-machine collaboration. Code and additional information is available at: https://github.com/anupampani/Gaze-VLM
- Abstract(参考訳): 視線は注意、短期の意図、将来の行動に関する貴重な手がかりを提供し、自我中心の行動のモデリングに強力なシグナルとなる。
本研究では,2つの重要なエゴセントリックな理解課題である,きめ細かい未来の事象予測と現在の活動理解のための,視線規則化フレームワークを提案する。
視覚入力のみに依存したり、補助入力信号として視線を使用する従来の手法とは異なり、本手法は学習時にのみ視線を使用する。
本稿では,人間の視線とモデル焦点を一致させる視線調整型注意機構を提案する。
この設計は柔軟でモジュール化されており、注意力を利用する複数のVLMアーキテクチャをまたいで一般化することができる。
実験結果から,今後の事象予測には最大11点,現在の活動理解には約7点のセマンティック予測スコアが得られた。
これらの結果は、自我中心型VLMの精度とロバスト性を向上させるための視線誘導訓練の価値を強調した。
この研究は、補助ロボットや人間と機械の協調といった現実のシナリオにおいて、人間の視線を利用してVLMの予測能力を高める基盤を確立する。
コードと追加情報は、https://github.com/anupampani/Gaze-VLMで公開されている。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - In the Eye of MLLM: Benchmarking Egocentric Video Intent Understanding with Gaze-Guided Prompting [12.567763863700058]
EgoGazeVQAは、エゴセントリックな視線誘導型ビデオ質問応答ベンチマークである。
実験の結果,既存のMLLMはユーザの意図を正確に解釈するのに苦労していることがわかった。
我々の視線誘導インテントプロンプト法は性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-09T07:11:56Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Imitation Learning with Human Eye Gaze via Multi-Objective Prediction [3.5779268406205618]
本稿では,新しい文脈認識型模倣学習アーキテクチャであるGaze Regularized Imitation Learning (GRIL)を提案する。
GRILは人間のデモンストレーションと視線の両方から同時に学習し、視覚的注意が重要なコンテキストを提供するタスクを解決する。
GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。
論文 参考訳(メタデータ) (2021-02-25T17:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。