論文の概要: GazeVLM: A Vision-Language Model for Multi-Task Gaze Understanding
- arxiv url: http://arxiv.org/abs/2511.06348v1
- Date: Sun, 09 Nov 2025 12:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.897746
- Title: GazeVLM: A Vision-Language Model for Multi-Task Gaze Understanding
- Title(参考訳): GazeVLM:マルチタスクゲーズ理解のためのビジョン言語モデル
- Authors: Athul M. Mathew, Haithem Hermassi, Thariq Khalid, Arshad Ali Khan, Riad Souissi,
- Abstract要約: 本稿では,画像のマルチタスク視線理解のための視覚言語モデル(VLM)であるGazeVLMを紹介する。
人検出、目視対象検出、目視対象識別に対処する。
GazeVLMは、私たちの知る限り、これらの組み合わせタスクに対するVLMの最初の応用であり、各タスクの選択的な実行を可能にします。
- 参考スコア(独自算出の注目度): 5.94301570835109
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gaze understanding unifies the detection of people, their gaze targets, and objects of interest into a single framework, offering critical insight into visual attention and intent estimation. Although prior research has modelled gaze cues in visual scenes, a unified system is still needed for gaze understanding using both visual and language prompts. This paper introduces GazeVLM, a novel Vision-Language Model (VLM) for multi-task gaze understanding in images, addressing person detection, gaze target detection, and gaze object identification. While other transformer-based methods exist for gaze analysis, GazeVLM represents, to our knowledge, the first application of a VLM to these combined tasks, allowing for selective execution of each task. Through the integration of visual (RGB and depth) and textual modalities, our ablation study on visual input combinations revealed that a fusion of RGB images with HHA-encoded depth maps, guided by text prompts, yields superior performance. We also introduce an object-level gaze detection metric for gaze object identification ($AP_{ob}$). Through experiments, GazeVLM demonstrates significant improvements, notably achieving state-of-the-art evaluation scores on GazeFollow and VideoAttentionTarget datasets.
- Abstract(参考訳): 視線理解は、人々の検出、視線目標、関心の対象を単一のフレームワークに統合し、視覚的注意力と意図推定に関する重要な洞察を提供する。
先行研究は視覚シーンにおける視線手がかりをモデル化してきたが、視覚と言語の両方のプロンプトを用いて視線理解を行うには統一されたシステムが必要である。
本稿では、画像のマルチタスク視線理解、人物検出、視線目標検出、視線物体識別のための新しい視覚言語モデルであるGazeVLMを紹介する。
GazeVLMは、視線分析のための他のトランスフォーマーベースの手法が存在するが、我々の知る限り、これらの組み合わせタスクにVLMを最初に適用することで、各タスクの選択的な実行を可能にしている。
視覚的(RGBと深度)とテキストのモダリティの統合により,RGB画像とHHAエンコードされた深度マップとの融合が,テキストプロンプトによって導かれることにより,優れた性能が得られることがわかった。
また、視線オブジェクト識別のためのオブジェクトレベルの視線検出基準(AP_{ob}$)も導入する。
実験を通じて、GazeVLMは、特にGazeFollowとVideoAttentionTargetデータセットの最先端評価スコアを達成するなど、大幅な改善を示している。
関連論文リスト
- AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders [33.26237143983192]
本研究では,視覚目標推定の問題に対処する。
凍結したDINOv2エンコーダの特徴を活用して視線目標推定を効率化する新しいトランスフォーマフレームワークであるGaze-LLEを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:30Z) - Towards Pixel-Level Prediction for Gaze Following: Benchmark and Approach [27.84672974344777]
本稿ではGazeSegという新しい視線目標予測手法を提案する。
人物の空間的視野を案内情報として完全に活用し、徐々に粗い視線目標のセグメンテーションと認識プロセスへと導くことができる。
本手法は、視線目標セグメンテーションにおける0.325のDiceと、71.7%のトップ5認識を実現する。
論文 参考訳(メタデータ) (2024-11-30T01:27:48Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following [10.91834567383105]
人のポーズやオブジェクトとのインタラクションに関連する文脈的手がかりは、フォローする人を見つめるための貴重な情報を提供することができる。
視覚言語モデル (VLM) を用いて, 視覚の視線改善のために, 広範囲の文脈的手がかりを抽出し, 視線改善を行う。
画像全体と、対象人物の周りに描かれた楕円を併用することが、視覚的プロンプトの最も効果的な戦略である。
論文 参考訳(メタデータ) (2024-06-06T09:41:39Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - LNSMM: Eye Gaze Estimation With Local Network Share Multiview Multitask [7.065909514483728]
本稿では,視線点と視線方向を同時に推定する新しい手法を提案する。
本手法は,視線点と視線方向の2つの指標について,現在主流の手法であることを示す。
論文 参考訳(メタデータ) (2021-01-18T15:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。