論文の概要: Learning to See What You Need: Gaze Attention for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.13080v1
- Date: Wed, 13 May 2026 06:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.858691
- Title: Learning to See What You Need: Gaze Attention for Multimodal Large Language Models
- Title(参考訳): 必要なものを知るための学習:マルチモーダルな大規模言語モデルの注視
- Authors: Junha Song, Byeongho Heo, Geonmo Gu, Jaegul Choo, Dongyoon Han, Sangdoo Yun,
- Abstract要約: 本稿では,世代別タスク関連視覚領域へのMLLMの選択的参加を可能にする新しいメカニズムであるGaze Attentionを紹介する。
注意計算では、視線KVエントリが最大90%少ないのに対して、視線アテンションは高密度アテンションベースラインと一致または超過していることが示される。
- 参考スコア(独自算出の注目度): 96.20985292033465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When humans describe a visual scene, they do not process the entire image uniformly; instead, they selectively fixate on regions relevant to their intended description. In contrast, current multimodal large language models (MLLMs) attend to all visual tokens at each generation step, leading to diluted focus and unnecessary computational overhead. In this work, we introduce Gaze Attention, a novel mechanism that enables MLLMs to selectively attend to task-relevant visual regions during generation. Specifically, we spatially group visual embeddings-stored as key-value caches-into compact gaze regions, each represented by a lightweight descriptor. At each decoding step, the model dynamically selects the most relevant regions and restricts attention to them, reducing redundant computation while enhancing focus. To mitigate the loss of global context caused by localized attention, we further propose learnable context tokens appended to each image or frame, allowing the model to maintain holistic visual awareness. Extensive experiments on image and video understanding benchmarks demonstrate that Gaze Attention matches or surpasses dense-attention baselines, while using up to 90% fewer visual KV entries in the attention computation.
- Abstract(参考訳): 人間が視覚的なシーンを記述するとき、彼らは画像全体を一様に処理せず、その代わりに、意図した記述に関連する領域を選択的に固定する。
対照的に、現在のマルチモーダル大言語モデル(MLLM)は、各生成ステップで全ての視覚トークンに対応し、希薄な焦点と不要な計算オーバーヘッドをもたらす。
本稿では,タスク関連視覚領域にMLLMを選択的に参加させる新しいメカニズムであるGaze Attentionを紹介する。
具体的には、視覚埋め込みをキー値キャッシュとして格納した空間的にグループ化し、それぞれを軽量なディスクリプタで表現する。
各デコーディングステップにおいて、モデルは最も関連性の高い領域を動的に選択し、それらへの注意を制限し、焦点を拡大しながら冗長な計算を減らす。
局所的注意によるグローバルコンテキストの損失を軽減するため,各画像やフレームに付加される学習可能なコンテキストトークンを提案する。
画像とビデオの理解ベンチマークにおける広範囲な実験により、Gaze Attentionは、注意計算において最大90%の視覚的KVエントリを使用しながら、高密度の注意ベースラインと一致または超えることを示した。
関連論文リスト
- Steerable Visual Representations [72.39044430620977]
我々は、グローバルでローカルな機能を自然言語で操れるステアブルなビジュアル表現を紹介した。
また,本手法は,異常検出とパーソナライズされた対象の識別に専用アプローチを適合させ,性能を向上する。
論文 参考訳(メタデータ) (2026-04-02T17:59:49Z) - VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions [51.41587958253802]
視覚情報を捨てることなく推論コストを削減するVISOR(VISion On Request)を導入する。
VISORは画像とテキストトークン間の相互作用をスパースすることで効率を向上する。
実験により、VISORは、最先端の結果を一致または超えながら、計算コストを大幅に削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T17:58:17Z) - Tinted Frames: Question Framing Blinds Vision-Language Models [29.78944164519993]
VLM(Vision-Language Models)は、視覚的推論を必要とするタスクでも視覚的な入力をあまり利用していないことが示されている。
我々は、フレーミングが画像上の注意の量と分布の両方を変えるかを定量化する。
本稿では,学習可能なトークンを用いた軽量なプロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:53:09Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Zoomer: Adaptive Image Focus Optimization for Black-box MLLM [45.40963536739482]
SysNameは、トークン制限内で重要な視覚的詳細を保持しながら、MLLMのパフォーマンスを向上させるために設計された、新しい視覚的プロンプト機構である。
SysNameは一貫してベースラインメソッドを上回り、最大で26.9%の精度向上を実現し、トークン消費を大幅に削減した。
論文 参考訳(メタデータ) (2025-04-30T02:51:10Z) - See What You Are Told: Visual Attention Sink in Large Multimodal Models [4.024850952459758]
大規模マルチモーダルモデル(LMM)は、トランスフォーマーデコーダにおけるテキストと視覚トークン間の注意機構を活用することで、イメージを「見る」。
最近の知見は、LMMは特定の視覚トークンに常に高い注意重みを割り当てる異常な傾向にあることを示している。
本稿では、画像中心の頭部における注意を再分配する視覚的注意再分配(VAR)について紹介する。
論文 参考訳(メタデータ) (2025-03-05T09:55:07Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - What does CLIP know about a red circle? Visual prompt engineering for
VLMs [116.8806079598019]
テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。
キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
論文 参考訳(メタデータ) (2023-04-13T17:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。