論文の概要: Direct Visual Grounding by Directing Attention of Visual Tokens
- arxiv url: http://arxiv.org/abs/2511.12738v1
- Date: Sun, 16 Nov 2025 19:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.508096
- Title: Direct Visual Grounding by Directing Attention of Visual Tokens
- Title(参考訳): 視覚的トークンの注意を向けた直接的視覚的接地
- Authors: Parsa Esmaeilkhani, Longin Jan Latecki,
- Abstract要約: 視覚言語モデル(VLM)は、視覚トークンとテキストトークンを混合する。
NTP損失は視覚トークンに注意を向けるには不十分な信号であると考えられる。
視覚トークンの注意を直接監視する新しい損失関数を提案する。
- 参考スコア(独自算出の注目度): 8.586228101739259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) mix visual tokens and text tokens. A puzzling issue is the fact that visual tokens most related to the query receive little to no attention in the final layers of the LLM module of VLMs from the answer tokens, where all tokens are treated equally, in particular, visual and language tokens in the LLM attention layers. This fact may result in wrong answers to visual questions, as our experimental results confirm. It appears that the standard next-token prediction (NTP) loss provides an insufficient signal for directing attention to visual tokens. We hypothesize that a more direct supervision of the attention of visual tokens to corresponding language tokens in the LLM module of VLMs will lead to improved performance on visual tasks. To demonstrate that this is indeed the case, we propose a novel loss function that directly supervises the attention of visual tokens. It directly grounds the answer language tokens in images by directing their attention to the relevant visual tokens. This is achieved by aligning the attention distribution of visual tokens to ground truth attention maps with KL divergence. The ground truth attention maps are obtained from task geometry in synthetic cases or from standard grounding annotations (e.g., bounding boxes or point annotations) in real images, and are used inside the LLM for attention supervision without requiring new labels. The obtained KL attention loss (KLAL) when combined with NTP encourages VLMs to attend to relevant visual tokens while generating answer tokens. This results in notable improvements across geometric tasks, pointing, and referring expression comprehension on both synthetic and real-world data, as demonstrated by our experiments. We also introduce a new dataset to evaluate the line tracing abilities of VLMs. Surprisingly, even commercial VLMs do not perform well on this task.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚トークンとテキストトークンを混合する。
厄介な問題は、クエリに最も関係している視覚トークンが、答えトークンからVLMのLLMモジュールの最終レイヤでほとんど、ほとんど注意を払わず、全てのトークンが、特にLLMの注意層における視覚トークンと言語トークンと等しく扱われるという事実である。
この事実は、我々の実験結果が確認したように、視覚的疑問に対する間違った答えをもたらす可能性がある。
NTP損失は視覚トークンに注意を向けるには不十分な信号であると考えられる。
VLMのLLMモジュールの言語トークンに対する視覚トークンの注意のより直接的な監視は、視覚タスクの性能向上につながると仮定する。
実際にこれが事実であることを実証するために,視覚トークンの注意を直接監視する新しい損失関数を提案する。
関連した視覚的トークンに注意を向けることで、答言語トークンを直接画像に接地する。
これは、視覚的トークンの注意分布を、KLの発散と接地真実の注意マップに整合させることによって達成される。
基底真理注意マップは、合成ケースのタスク幾何学や実画像の標準的な接地アノテーション(例えば、バウンディングボックスやポイントアノテーション)から得られ、新しいラベルを必要とせず、LLM内部で注意監視に使用される。
得られたKLアテンションロス(KLAL)は、NTPと組み合わせることで、VLMが応答トークンを生成しながら関連する視覚トークンに出席することを奨励する。
その結果、我々の実験で示されるように、幾何学的タスク、指摘、および合成データと実世界のデータに対する参照表現の理解において顕著な改善がもたらされた。
VLMの線追跡能力を評価するための新しいデータセットも導入する。
驚いたことに、商用のVLMでさえ、このタスクではうまく機能しない。
関連論文リスト
- Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。
WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。
我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-05T02:32:58Z) - Introducing Visual Perception Token into Multimodal Large Language Model [53.82301522384719]
MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。
MLLMには、独自の視覚知覚プロセスを制御する自律的な能力がない。
本稿では,視覚知覚のプロセスを制御する機構をMLLMに組み込むことを目的として,視覚知覚トークンの概念を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:56:12Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs [34.3615740255575]
大規模視覚言語モデル(LVLM)は一般的に、テキストのトークンよりもはるかに多くの視覚トークンを含んでいる。
LVLMにおけるより効果的なトークンプルーニングに視覚的手がかりを利用するプラグイン・アンド・プレイ方式であるVisPrunerを提案する。
その結果, VisPruner は LLaVA-1.5-7B の FLOP を 91% 削減し, 推論遅延を 75% 削減できることを示した。
論文 参考訳(メタデータ) (2024-12-02T18:57:40Z) - Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models [16.185253476874006]
大きな視覚言語モデル(LVLM)は、視覚的理解と記述において強力な能力を示すが、幻覚に悩まされることが多い。
我々は,目隠しのメカニズムを変更せずに,目隠しトークンの影響を再検討するテストタイムアプローチである注意覚(AvisC)を提案する。
POPE、MME、AMBERなどの標準ベンチマークの実験は、AvisCがLVLMの幻覚を効果的に減少させることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:40:57Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。