論文の概要: GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2605.07817v1
- Date: Fri, 08 May 2026 14:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.130149
- Title: GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning
- Title(参考訳): GazeVLM:マルチモーダル推論のための内部注意制御によるアクティブビジョン
- Authors: Brown Ebouky, Gabriele Carrino, Niccolo Avogaro, Christoph Studer, Andrea Bartezzaghi, Mattia Rigotti,
- Abstract要約: 本稿では,このメタ認知的監視を内部化するマルチモーダルアーキテクチャであるGazeVLMを提案する。
VLMに自律的にガゼトークンを生成する権限を与えることで、GazeVLMは自身の因果注意マスクの上にトップダウン制御機構を確立する。
このアーキテクチャにより、外部のエージェント・コンテントに頼ることなく、グローバルな空間認識と局所的な焦点推論の間を流動的に遷移することができる。
- 参考スコア(独自算出の注目度): 12.050224516337098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human visual reasoning is governed by active vision, a process where metacognitive control drives top-down goal-directed attention, dynamically routing foveal focus toward task-relevant details while maintaining peripheral awareness of the global scene. In contrast, modern Vision-Language Models (VLMs) process visual information passively, relying on the static accumulation of massive token contexts that dilute spatial reasoning and induce linguistic hallucinations. Here we propose the following paradigm shift: GazeVLM, a multimodal architecture that internalizes this metacognitive oversight over its deployment of attention resources directly into the reasoning loop. By empowering the VLM to autonomously generate gaze tokens ($\texttt{<LOOK>}$), GazeVLM establishes a top-down control mechanism over its own causal attention mask. The model dynamically dictates its focal intent, triggering a continuous suppression bias that dampens irrelevant visual features, implementing spatial selective attention and simulating foveal fixation. Once local reasoning concludes, the bias lifts, seamlessly restoring the global view. This architecture enables the model to fluidly transition between global spatial awareness and localized focal reasoning without relying on external agentic contraptions like cropping tools, or inflating the context window with additional visual tokens derived from localized visual patches. Trained with a bespoke Group Relative Policy Optimization (GRPO) procedure that rewards valid grounding, our 4B-parameter GazeVLM delivers strong high-resolution multimodal reasoning performance, surpassing state-of-the-art VLMs in its parameter class by nearly 4% and agentic multimodal pipelines built around thinking with images by more than 5% on HRBench-4k and HRBench-8k.
- Abstract(参考訳): 人間の視覚的推論は、メタ認知的制御がトップダウンのゴール指向の注意を駆動し、グローバルシーンの周囲の認識を維持しながら、タスク関連の詳細に焦点を動的にルーティングするプロセスであるアクティブビジョンによって制御される。
対照的に、現代の視覚言語モデル(VLM)は視覚情報を受動的に処理し、空間的推論を希薄化し言語幻覚を誘発する巨大なトークンコンテキストの静的蓄積に依存している。
本稿では,このメタ認知的監視を内部化するマルチモーダルアーキテクチャであるGazeVLMを提案する。
GazeVLMは、VLMに自律的にガゼトークン($\texttt{<LOOK>}$)を生成する権限を与えることで、独自の因果注意マスクの上にトップダウン制御機構を確立する。
モデルは、その焦点意図を動的に予測し、無関係な視覚的特徴を阻害する連続的な抑制バイアスを誘発し、空間選択的注意を実践し、卵胞の固定をシミュレートする。
ひとたび地元の推論が終わると、バイアスが立ち上がり、世界観をシームレスに回復する。
このアーキテクチャにより、トリミングツールのような外部のエージェント機構に頼ることなく、局所的な視覚的パッチから派生した視覚的トークンでコンテキストウィンドウを膨らませることなく、グローバルな空間認識と局所的な焦点推論の間を流動的に遷移することができる。
4BパラメータGazeVLMは,有効グラウンド化を報奨するGRPO(Bespoke Group Relative Policy Optimization)プロシージャを用いて,パラメータクラスにおける最先端のVLMを約4%,HRBench-4kとHRBench-8kで5%以上の画像を扱うエージェント型マルチモーダルパイプラインを越え,高分解能なマルチモーダル推論性能を実現する。
関連論文リスト
- V-Reflection: Transforming MLLMs from Passive Observers to Active Interrogators [43.642375673675566]
V-リフレクション(V-Reflection)は、MLLMを「考える」視覚反射機構を通じてアクティブなインタクタに変換するフレームワークである。
推論の間、潜伏状態は動的プローブとして機能し、視覚的特徴空間を積極的に問う。
V-リフレクションは、タスククリティカルなエビデンスをローカライズする能力を内部化する。
論文 参考訳(メタデータ) (2026-03-31T03:57:56Z) - Video-Only ToM: Enhancing Theory of Mind in Multimodal Large Language Models [40.30801020339839]
VisionToMは、タスク認識推論を強化するために設計された視覚指向の介入フレームワークである。
視覚表現を正しいセマンティックターゲットと整列する介入ベクトルを計算する。
このガイダンスにより、モデルが突発的な言語的先行への依存を減らすことができる。
論文 参考訳(メタデータ) (2026-03-25T16:24:50Z) - Knowledge-Guided Manipulation Using Multi-Task Reinforcement Learning [43.715148652244864]
KG-M3POは、知覚、知識、ポリシーを統一する部分的に観察可能な設定でマルチタスクロボット操作を行うためのフレームワークである。
オンラインの3Dシーングラフは、オープン語彙の検出を計量的、リレーショナルな表現に変換する。
論文 参考訳(メタデータ) (2026-03-25T08:41:32Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。