論文の概要: Eye Gaze Tells You Where to Compute: Gaze-Driven Efficient VLMs
- arxiv url: http://arxiv.org/abs/2509.16476v1
- Date: Sat, 20 Sep 2025 00:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.813033
- Title: Eye Gaze Tells You Where to Compute: Gaze-Driven Efficient VLMs
- Title(参考訳): 視線が計算の場所を教えてくれる:視線駆動の効率的なVLM
- Authors: Qinyu Chen, Jiawen Qi,
- Abstract要約: 本稿では、人間の視線を天然の監視信号として利用し、それが重要な位置を割り振る学習自由フレームワークであるGazeVLMを提案する。
以上の結果から,モデル計算と人間の視線との整合性は,消費者デバイス上での効率的なVLM推論への簡単なプラグアンドプレイパスを提供することが示された。
- 参考スコア(独自算出の注目度): 1.985072438058346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) deliver impressive performance in understanding visual content with language instructions. However, redundancy in vision tokens results in the degenerated inference efficiency of VLMs, which hinders real-time use on edge consumer devices such as AR/VR devices. Existing efficiency methods commonly prune visual tokens using learned saliency, sparse attention schedules, or controller policies, but they often require architectural modification or access to intermediate activations. These pipelines add inference-time modules that increase compute and memory and often lead to an accuracy trade-off. Moreover, they also suffer from misalignment between the prompts and the region of interest in the images. Without human guidance, the model may focus on the wrong regions and miss small, high-frequency details when prompts or scenes change. In this paper, we propose GazeVLM, a training-free framework that uses the human eye gaze as a natural supervisory signal to allocate computation where it matters. By extracting gaze-driven regions of interest (ROIs) and optionally combining them with a low-resolution global view, GazeVLM mimics fovea-periphery perception to cut redundant visual tokens while preserving task-relevant details. We evaluate the visual question answering tasks on Qwen2.5-VL-3B/7B on the VOILA-COCO benchmark with human gaze. Quality of the answer is assessed by GPT-4o pairwise judging and a weighted score over coverage, accuracy, details, and fluency. Efficiency is measured by token counts and FLOPs. GazeVLM reduces visual tokens by up to 93.1%, total tokens by up to 59.6%, and FLOPs by 50%, while keeping better answer quality relative to full-resolution baselines. Our results show that aligning model computation with human gaze offers a simple, plug-and-play path toward efficient VLM inference on consumer devices.
- Abstract(参考訳): VLM(Vision-Language Models)は、言語命令による視覚的コンテンツ理解において、優れたパフォーマンスを提供する。
しかし、視覚トークンの冗長性により、VLMの非生成推論効率が低下し、AR/VRデバイスのようなエッジコンシューマデバイスでのリアルタイム使用が妨げられる。
既存の効率性は、学習されたサリエンシ、わずかな注意スケジュール、コントローラポリシーを使って視覚トークンを創り出すのが一般的だが、アーキテクチャの変更や中間的なアクティベーションへのアクセスを必要とすることが多い。
これらのパイプラインは、計算とメモリを増加させる推論時モジュールを追加し、しばしば正確なトレードオフにつながる。
また、プロンプトと画像への関心領域の相違にも悩まされる。
人間の指示がなければ、モデルは間違った地域に集中し、プロンプトやシーンが変わると、小さな高周波の詳細を見逃してしまうかもしれない。
本稿では,人間の視線を自然な監視信号として用い,重要な計算を割り当てる学習自由フレームワークであるGazeVLMを提案する。
GazeVLMは、視線駆動の関心領域(ROI)を抽出し、それらを低解像度のグローバルビューと任意に組み合わせることで、外見周囲の知覚を模倣し、タスク関連の詳細を保存しながら冗長な視覚トークンを切断する。
VOILA-COCOベンチマークを用いてQwen2.5-VL-3B/7Bにおける視覚的質問応答タスクの評価を行った。
回答の品質は、GPT-4oのペアワイズ判定と、カバレッジ、正確性、詳細、および流速に関する重み付けスコアによって評価される。
効率はトークン数とFLOPによって測定される。
GazeVLMは、ビジュアルトークンを最大93.1%、トータルトークンを最大59.6%、FLOPを50%削減し、フル解像度のベースラインよりも優れた回答品質を維持している。
以上の結果から,モデル計算と人間の視線との整合性は,消費者デバイス上での効率的なVLM推論への簡単なプラグアンドプレイパスを提供することが示された。
関連論文リスト
- Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では、簡易かつ効果的な介入であるVISER(Visual Input Structure for Enhanced Reasoning)を紹介する。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
低レベルの視覚構造は、構成的視覚的推論を改善するために強力で未探索の方向であることがわかった。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文 参考訳(メタデータ) (2025-06-09T10:45:35Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。