Fugu-MT 論文翻訳(概要): Enhancing Gaze Reasoning in Vision Foundation Models for Gaze Following

論文の概要: Enhancing Gaze Reasoning in Vision Foundation Models for Gaze Following

arxiv url: http://arxiv.org/abs/2605.22607v1
Date: Thu, 21 May 2026 15:21:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 20:14:18.593596
Title: Enhancing Gaze Reasoning in Vision Foundation Models for Gaze Following
Title（参考訳）: 迷路追従のための視覚基礎モデルにおける迷路推論の強化
Authors: Shijing Wang, Yaping Huang, Chaoqun Cui, David Wong, Yihua Cheng, Alexandros Neophytou, Hyung Jin Chang,
Abstract要約: 視線追跡のための視覚基盤モデルにおいて、視線推論を強化するための新しい学習機構を提案する。本手法は,目視対象が意味論的に健全でない場合に,最先端の性能を向上する。
参考スコア（独自算出の注目度）: 67.84259349601501
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Gaze following requires both scene understanding and gaze reasoning to localize the gaze target of an in-scene person. Recently, vision foundation models (VFMs) have demonstrated strong performance on this task, enabling simpler architectures while outperforming prior methods. However, we observe a key limitation of VFM-based approaches: while VFMs substantially improve scene understanding, they contribute little to gaze reasoning. As a result, existing methods often rely on semantically salient objects rather than true gaze cues, leading to degraded performance when targets are not salient. To address this, we propose a novel training mechanism to enhance gaze reasoning in VFMs for gaze following. Our method includes: (1) a head-conditioned local LoRA, which enables localized adaptation to preserve scene token learning while improving head token learning for gaze reasoning; and (2) an out-of-cone penalty, which injects gaze cues into head tokens while aligning them with scene tokens. Experiments on the GazeFollow and VAT datasets demonstrate that our method achieves state-of-the-art performance, with particularly strong improvements when gaze targets are not semantically salient. Our findings offer valuable insights for advancing future gaze following research. We will release the code once the paper is accepted.
Abstract（参考訳）: ゲーズフォローは、シーン理解と視線推論の両方を必要とし、シーン内人物の視線ターゲットをローカライズする。近年,ビジョンファウンデーションモデル (VFM) がこの課題に対して高い性能を示し,従来の手法よりも優れたアーキテクチャを実現している。 VFMはシーン理解を著しく改善するが,視線推論にはほとんど寄与しない。その結果、既存の手法は真の視線ではなく意味的に有意な対象に依存しており、目標が正当でない場合には性能が低下する。そこで本稿では,視線追従のためのVFMにおける視線推論を強化するための新しい学習機構を提案する。提案手法は,(1)ヘッドコンディショニングされたローカルロラ,(2)ヘッドコンディショニングのためのヘッドトークン学習を改善しつつ,シーントークン学習を局所的に保存できる,(2)ヘッドトークンに注視キューを注入し,シーントークンとアライメントするアウト・オブ・コーンペナルティを含む。 GazeFollowデータセットとVATデータセットの実験により、我々の手法が最先端のパフォーマンスを達成することを示した。我々の発見は、今後の展望を後押しするための貴重な洞察を与えてくれる。論文が受理されたら、コードを公開します。

関連論文リスト

Visually-Guided Policy Optimization for Multimodal Reasoning [60.035908460318126]
本稿では,VGPO(Visually-Guided Policy Optimization)を提案する。 VGPOは当初、視覚的類似性を活用して視覚的手がかりをローカライズし増幅する視覚的注意補償機構を導入した。 VGPOは、数学的多モーダル推論や視覚依存タスクにおいて、より優れた視覚的活性化と優れた性能を実現する。
論文参考訳（メタデータ） (2026-04-10T14:22:38Z)
GazeCLIP: Gaze-Guided CLIP with Adaptive-Enhanced Fine-Grained Language Prompt for Deepfake Attribution and Detection [80.12497948980378]
現在のディープフェイク属性やディープフェイク検出作業は、新しい生成方法への一般化が不十分である傾向にある。適応型きめ細粒度言語プロンプトを用いた新しい視線誘導型CLIPを提案する。拡散モデルや流れモデルのような新しい発電機上でのネットワークのDFAD性能を評価するために, 新規できめ細かなベンチマークを行う。 CLIPをベースとした視線認識モデルを導入し,顔偽造攻撃の一般化を図った。
論文参考訳（メタデータ） (2026-03-31T05:59:59Z)
Gaze-Regularized VLMs for Ego-Centric Behavior Understanding [7.281396624646809]
眼球は固定やササードを包含しており、人間の意図や将来の行動に対する重要な洞察を提供する。本研究では、自我中心の行動理解のための視覚言語モデル(VLM)を強化する、視線規則化フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-24T13:37:28Z)
Rethinking VLMs for Image Forgery Detection and Localization [55.32700985102152]
本稿では,視覚言語モデル(VLM)をフル活用して画像偽造検出・局所化(IFDL)タスクを支援する方法について検討する。これらの知見に基づいて,IFDL-VLMと呼ばれる新しいIFDLパイプラインを提案する。実験結果から, 検出, 局所化, 解釈可能性において, 常に新しい最先端性能を達成できることが示唆された。
論文参考訳（メタデータ） (2026-03-13T12:21:31Z)
StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos [128.45606644157]
StreamGazeは、MLLMがストリーミングビデオにおける時間的および前向きな推論において、いかに効果的に視線を使用するかを評価する最初のベンチマークである。我々は、エゴセントリックなビデオと生の視線軌跡を整列する視線ビデオQA生成パイプラインを開発した。我々は、最先端のMLLMと人的パフォーマンスの相違をかなり観察する。
論文参考訳（メタデータ） (2025-12-01T14:15:44Z)
GazeVLM: A Vision-Language Model for Multi-Task Gaze Understanding [5.94301570835109]
本稿では,画像のマルチタスク視線理解のための視覚言語モデル(VLM)であるGazeVLMを紹介する。人検出、目視対象検出、目視対象識別に対処する。 GazeVLMは、私たちの知る限り、これらの組み合わせタスクに対するVLMの最初の応用であり、各タスクの選択的な実行を可能にします。
論文参考訳（メタデータ） (2025-11-09T12:07:40Z)
Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding [7.281396624646809]
視線は注意、短期的意図、将来の行動に関する貴重な手がかりを提供する。本稿では,2つの重要な自我中心的理解タスクに対して,VLMを強化した視線規則化フレームワークを提案する。本稿では,人間の視線とモデル焦点を一致させる視線調整型注意機構を提案する。
論文参考訳（メタデータ） (2025-10-24T11:33:03Z)
LG-Gaze: Learning Geometry-aware Continuous Prompts for Language-Guided Gaze Estimation [12.903711441941663]
視線推定モデルが一般化する能力は、視線とは無関係な様々な要因によって著しく妨げられることが多い。本稿では,視線推定タスクを視覚言語アライメント問題として,新しいアプローチを提案する。提案するフレームワークはLanguage-Guided Gaze Estimation (LG-Gaze) と呼ばれ,視覚言語モデルの豊富な事前知識から視線推定のための連続的・幾何学的特徴を学習する。
論文参考訳（メタデータ） (2024-11-13T13:46:15Z)
Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following [10.91834567383105]
人のポーズやオブジェクトとのインタラクションに関連する文脈的手がかりは、フォローする人を見つめるための貴重な情報を提供することができる。視覚言語モデル (VLM) を用いて, 視覚の視線改善のために, 広範囲の文脈的手がかりを抽出し, 視線改善を行う。画像全体と、対象人物の周りに描かれた楕円を併用することが、視覚的プロンプトの最も効果的な戦略である。
論文参考訳（メタデータ） (2024-06-06T09:41:39Z)
Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。 a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文参考訳（メタデータ） (2021-05-20T14:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。