論文の概要: VL4Gaze: Unleashing Vision-Language Models for Gaze Following
- arxiv url: http://arxiv.org/abs/2512.20735v1
- Date: Tue, 23 Dec 2025 19:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.58489
- Title: VL4Gaze: Unleashing Vision-Language Models for Gaze Following
- Title(参考訳): VL4Gaze:ゲーム後継のビジョンランゲージモデル公開
- Authors: Shijing Wang, Chaoqun Cui, Yaping Huang, Hyung Jin Chang, Yihua Cheng,
- Abstract要約: VL4Gazeは、視線理解のための視覚言語モデルの可能性を調べ、評価し、アンロックするために設計された最初の大規模ベンチマークである。
VL4Gazeには、124K画像にまたがる489Kの質問応答対が含まれており、4つの補完的なタスクを通じて、理解を統一されたVQA問題とみなす公式がある。
その結果、大規模VLMでさえ、タスク固有の監督なしに視線意味や空間的位置を確実に推測するのに苦労していることがわかった。
- 参考スコア(独自算出の注目度): 38.94119010915699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human gaze provides essential cues for interpreting attention, intention, and social interaction in visual scenes, yet gaze understanding remains largely unexplored in current vision-language models (VLMs). While recent VLMs achieve strong scene-level reasoning across a range of visual tasks, there exists no benchmark that systematically evaluates or trains them for gaze interpretation, leaving open the question of whether gaze understanding can emerge from general-purpose vision-language pre-training. To address this gap, we introduce VL4Gaze, the first large-scale benchmark designed to investigate, evaluate, and unlock the potential of VLMs for gaze understanding. VL4Gaze contains 489K automatically generated question-answer pairs across 124K images and formulates gaze understanding as a unified VQA problem through four complementary tasks: (1) gaze object description, (2) gaze direction description, (3) gaze point location, and (4) ambiguous question recognition. We comprehensively evaluate both commercial and open-source VLMs under in-context learning and fine-tuning settings. The results show that even large-scale VLMs struggle to reliably infer gaze semantics and spatial localization without task-specific supervision. In contrast, training on VL4Gaze brings substantial and consistent improvements across all tasks, highlighting the importance of targeted multi-task supervision for developing gaze understanding capabilities in VLMs. We will release the dataset and code to support further research and development in this direction.
- Abstract(参考訳): 人間の視線は視覚シーンにおける注意、意図、社会的相互作用を解釈するための必須の手がかりを提供するが、視線理解は現在の視覚言語モデル(VLM)では明らかにされていない。
近年のVLMは様々な視覚的タスクに対して強いシーンレベルの推論を実現しているが、視線解釈を体系的に評価または訓練するベンチマークは存在せず、視線理解が汎用的な視覚言語による事前学習から現れるかどうかという疑問が残る。
このギャップに対処するため、私たちは視線理解のためのVLMの可能性を調査、評価、アンロックするために設計された最初の大規模ベンチマークであるVL4Gazeを紹介した。
VL4Gazeは、114Kの画像に対して489Kの質問応答対を自動生成し、(1)視線オブジェクト記述、(2)視線方向記述、(3)視線ポイント位置、(4)不明瞭な質問認識という4つの相補的なタスクを通して、理解を統一されたVQA問題として見つめる公式を含む。
テキスト内学習および微調整環境下での商用VLMとオープンソースVLMの両方を包括的に評価する。
その結果、大規模VLMでさえ、タスク固有の監督なしに視線意味や空間的位置を確実に推測するのに苦労していることがわかった。
これとは対照的に、VL4Gazeでのトレーニングは全タスクにわたって大幅に一貫した改善をもたらし、VLMにおける視線理解機能を開発するためのマルチタスク監視の重要性を強調している。
この方向にさらなる研究と開発を支援するために、データセットとコードを公開します。
関連論文リスト
- GazeVLM: A Vision-Language Model for Multi-Task Gaze Understanding [5.94301570835109]
本稿では,画像のマルチタスク視線理解のための視覚言語モデル(VLM)であるGazeVLMを紹介する。
人検出、目視対象検出、目視対象識別に対処する。
GazeVLMは、私たちの知る限り、これらの組み合わせタスクに対するVLMの最初の応用であり、各タスクの選択的な実行を可能にします。
論文 参考訳(メタデータ) (2025-11-09T12:07:40Z) - Towards General Urban Monitoring with Vision-Language Models: A Review, Evaluation, and a Research Agenda [0.4893345190925178]
視覚言語モデル(Vision-Language Models)は、自然言語の推論と視覚的理解を統合したモデルである。
都市インフラの状況について、機械は市民のように「見る」ことができるのか?
論文 参考訳(メタデータ) (2025-10-14T11:27:46Z) - Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。