論文の概要: Gaze-Regularized VLMs for Ego-Centric Behavior Understanding
- arxiv url: http://arxiv.org/abs/2603.23190v1
- Date: Tue, 24 Mar 2026 13:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.498944
- Title: Gaze-Regularized VLMs for Ego-Centric Behavior Understanding
- Title(参考訳): 自己中心的行動理解のための迷路規則化VLM
- Authors: Anupam Pani, Yanchao Yang,
- Abstract要約: 眼球は固定やササードを包含しており、人間の意図や将来の行動に対する重要な洞察を提供する。
本研究では、自我中心の行動理解のための視覚言語モデル(VLM)を強化する、視線規則化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.281396624646809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Eye gaze, encompassing fixations and saccades, provides critical insights into human intentions and future actions. This study introduces a gaze-regularized framework that enhances Vision Language Models (VLMs) for egocentric behavior understanding. Unlike existing methods that rely solely on visual data and overlook gaze information, our approach directly incorporates gaze information into the VLM architecture during training. By generating gaze-based queries, the model dynamically focuses on gaze-highlighted regions, while a gaze-regularization mechanism ensures the alignment of model attention with human attention patterns. To better understand how gaze can be effectively integrated into VLMs, we conducted extensive experiments exploring various strategies for incorporating gaze data. These innovations enable the prediction of future events with detailed action descriptions. Experimental results demonstrate a nearly 13 % improvement in semantic scores compared to baseline models not leveraging gaze data, highlighting the effectiveness of our approach. This work establishes a foundation for leveraging the human gaze in VLMs, significantly boosting their predictive capabilities in applications requiring accurate and robust future event prediction.
- Abstract(参考訳): 眼球は固定やササードを包含しており、人間の意図や将来の行動に対する重要な洞察を提供する。
本研究では、自我中心の行動理解のための視覚言語モデル(VLM)を強化する、視線規則化フレームワークを提案する。
視覚データのみに頼り、視線情報を見渡す既存の手法とは異なり、本手法では、視線情報をトレーニング中に直接VLMアーキテクチャに組み込む。
視線に基づくクエリを生成することで、モデルは視線を照らした領域に動的に焦点を合わせ、視線規則化機構は、モデル注意と人間の注意パターンの整合性を保証する。
視線をVLMに効果的に統合する方法をよりよく理解するために,視線データを組み込むための様々な戦略を探索する広範囲な実験を行った。
これらのイノベーションは、詳細なアクション記述による将来のイベントの予測を可能にする。
その結果, 視線を生かさないベースラインモデルと比較して, セマンティックスコアが約13%向上し, 提案手法の有効性が示された。
この研究は、VLMにおける人間の視線を活用する基盤を確立し、正確で堅牢な未来のイベント予測を必要とするアプリケーションにおいて、その予測能力を大幅に向上させる。
関連論文リスト
- Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models [66.96421290733126]
VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なパラダイムとして登場した。
我々はtextbfVision-Language Mixture-of-Transformers (VL-MoT) フレームワーク上に構築した textbfDeepVision-VLA を提案する。
DeepVision-VLAは、シミュレーションされたタスクと実世界のタスクで、それぞれ9.0%と7.5%の先行の最先端メソッドより優れている。
論文 参考訳(メタデータ) (2026-03-16T17:59:54Z) - GazeMoE: Perception of Gaze Target with Mixture-of-Experts [5.556628823471207]
視覚画像から人間の視線目標を推定することは、人間の注意をロボットが理解するための重要な課題である。
本稿では,凍結基盤モデルからガゼターゲット関連キューを選択的に活用する,新しいエンドツーエンドフレームワークGazeMoEを提案する。
GazeMoEは最先端のパフォーマンスを実現し、視線推定タスクに挑戦する既存の手法よりも優れています。
論文 参考訳(メタデータ) (2026-03-06T13:16:29Z) - LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - CSGaze: Context-aware Social Gaze Prediction [19.96601346116304]
CSGazeは、顔やシーン情報を補完的な入力として活用し、社会的視線パターンの予測を強化する、コンテキスト認識型マルチモーダルアプローチである。
実験の結果,CSGazeはGP-Static, UCO-LAEO, AVA-LAEOの最先端手法と競合することがわかった。
生成したアテンションスコアを通じて、最初の説明可能性を提供し、モデルの意思決定プロセスに関する洞察を提供する。
論文 参考訳(メタデータ) (2025-11-08T10:07:45Z) - Eyes on Target: Gaze-Aware Object Detection in Egocentric Video [1.3320917259299652]
我々は、エゴセントリックビデオのための新しい奥行き認識および視線誘導オブジェクト検出フレームワークであるEyes on Targetを提案する。
提案手法は視覚変換器(ViT)の注意機構に視線由来の特徴を注入し,空間的特徴選択を人間に適応した領域へ効果的にバイアスする。
我々は,人間の視覚的注意が課題評価に重要であるエゴセントリック・シミュレーター・データセット上で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-11-03T05:21:58Z) - Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding [7.281396624646809]
視線は注意、短期的意図、将来の行動に関する貴重な手がかりを提供する。
本稿では,2つの重要な自我中心的理解タスクに対して,VLMを強化した視線規則化フレームワークを提案する。
本稿では,人間の視線とモデル焦点を一致させる視線調整型注意機構を提案する。
論文 参考訳(メタデータ) (2025-10-24T11:33:03Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。