論文の概要: Eyes on VLM: Benchmarking Gaze Following and Social Gaze Prediction in Vision Language Models
- arxiv url: http://arxiv.org/abs/2605.19859v2
- Date: Thu, 21 May 2026 18:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.69653
- Title: Eyes on VLM: Benchmarking Gaze Following and Social Gaze Prediction in Vision Language Models
- Title(参考訳): VLMの視線:視覚言語モデルにおける視線追従と社会的視線予測のベンチマーク
- Authors: Hengfei Wang, Anshul Gupta, Pierre Vuillecard, Jean-Marc Odobez,
- Abstract要約: 視覚言語モデル(VLM)における視線理解のためのシステム評価フレームワークEyeVLMを提案する。
視線理解能力を評価するために,2つの中核課題に焦点をあてる。
第2の社会的視線予測は、多対人インタラクションに対する社会的および関係的な推論を必要とする。
- 参考スコア(独自算出の注目度): 20.954224027029625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have rapidly evolved into general-purpose multimodal reasoners with strong zero-shot generalization. In this context, VLMs could greatly benefit the analysis of human gaze and attention, a central task in human behavior understanding that requires reasoning about the physical scene as well as the activity, interactions, and social context. However, the extent to which VLMs can reliably understand human gaze and related attentional behaviors remains largely unexplored. In this work, we present EyeVLM, a systematic evaluation framework for gaze understanding in VLMs across two complementary dimensions: tasks and models. To assess gaze understanding capabilities, we focus on two core tasks. The first, gaze following, i.e., predicting the 2D location where a person is looking, has a geometric and visual processing focus, requiring a precise understanding of the human face, attention direction, 3D scene structure, and spatial grounding of attended targets. The second, social gaze prediction, requires social and relational reasoning over multi-person interactions (e.g., mutual gaze and shared attention), and may benefit more from the LLM semantic reasoning capabilities within VLMs. Regarding models, EyeVLM evaluates these tasks in two ways: a zero-shot setting with a diverse set of state-of-the-art open- and closed-source VLMs, exploring different prompting strategies; and a fine-tuning approach based on task-specific QA pairs, studying the impact of model scale and data scale. As benchmarks, we rely on existing gaze understanding datasets and perform a systematic comparison with state-of-the-art purely visual models. Overall, our results show that current VLMs lack precise gaze understanding capabilities. While standard training helps reduce the gap with visual models, significant improvements are still needed.
- Abstract(参考訳): 視覚言語モデル(VLM)は、ゼロショットを強く一般化した汎用マルチモーダル推論器へと急速に進化してきた。
この文脈では、VLMは人間の視線と注意の分析に大いに役立ち、人間の行動理解の中心的なタスクであり、身体的なシーンだけでなく、活動、相互作用、社会的文脈についても推論する必要がある。
しかしながら、VLMが人間の視線や関連する注意行動を確実に理解できる範囲は、まだ明らかにされていない。
本研究では,2つの相補的次元(タスクとモデル)にわたるVLMの視線理解のための系統的評価フレームワークであるEyeVLMを提案する。
視線理解能力を評価するために,2つのコアタスクに焦点をあてる。
最初の、つまり、人が見ている2D位置を予測し、幾何学的かつ視覚的な処理焦点を持ち、人間の顔、注意方向、3Dシーン構造、入場対象の空間的接地を正確に理解する必要がある。
第2の社会的視線予測は、マルチパーソンインタラクション(例えば、相互視線と共有注意)に対する社会的および関係的推論を必要とし、VLM内のLLM意味推論能力の恩恵を受ける可能性がある。
モデルに関してEyeVLMは、これらのタスクを2つの方法で評価する: さまざまな最先端のオープンソースVLMとクローズドソースVLMによるゼロショット設定、異なるプロンプト戦略の探索、タスク固有のQAペアに基づく微調整アプローチ、モデルスケールとデータスケールの影響を研究する。
ベンチマークとして、既存の視線理解データセットに依存し、最先端の純粋視覚モデルと体系的に比較する。
その結果,現在のVLMには正確な視線理解能力がないことがわかった。
標準的なトレーニングは視覚モデルとのギャップを減らすのに役立ちますが、大きな改善が必要です。
関連論文リスト
- Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding [7.281396624646809]
視線は注意、短期的意図、将来の行動に関する貴重な手がかりを提供する。
本稿では,2つの重要な自我中心的理解タスクに対して,VLMを強化した視線規則化フレームワークを提案する。
本稿では,人間の視線とモデル焦点を一致させる視線調整型注意機構を提案する。
論文 参考訳(メタデータ) (2025-10-24T11:33:03Z) - VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.34964016971127]
iVISPARは、視覚言語モデル(VLM)がエージェントとして働く空間的推論能力を評価するために設計されたインタラクティブなベンチマークである。
このベンチマークは、ビジュアル3D、2D、テキストベースの入力モダリティをサポートし、VLMの計画と推論スキルの包括的な評価を可能にする。
その結果、VLMは3次元やテキストベースの設定に比べて2次元のタスクでは優れていたが、複雑な空間構成に苦慮し、常に人間のパフォーマンスに欠けていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。