論文の概要: Tinted Frames: Question Framing Blinds Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.19203v1
- Date: Thu, 19 Mar 2026 17:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.31433
- Title: Tinted Frames: Question Framing Blinds Vision-Language Models
- Title(参考訳): Tinted Frames: 視覚-言語モデルに対する質問分割ブラインド
- Authors: Wan-Cyuan Fan, Jiayun Luo, Declan Kutscher, Leonid Sigal, Ritwik Gupta,
- Abstract要約: VLM(Vision-Language Models)は、視覚的推論を必要とするタスクでも視覚的な入力をあまり利用していないことが示されている。
我々は、フレーミングが画像上の注意の量と分布の両方を変えるかを定量化する。
本稿では,学習可能なトークンを用いた軽量なプロンプトチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 29.78944164519993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have been shown to be blind, often underutilizing their visual inputs even on tasks that require visual reasoning. In this work, we demonstrate that VLMs are selectively blind. They modulate the amount of attention applied to visual inputs based on linguistic framing even when alternative framings demand identical visual reasoning. Using visual attention as a probe, we quantify how framing alters both the amount and distribution of attention over the image. Constrained framings, such as multiple choice and yes/no, induce substantially lower attention to image context compared to open-ended, reduce focus on task-relevant regions, and shift attention towards uninformative tokens. We further demonstrate that this attention misallocation is the principal cause of degraded accuracy and cross-framing inconsistency. Building on this mechanistic insight, we introduce a lightweight prompt-tuning method using learnable tokens that encourages the robust, visually grounded attention patterns observed in open-ended settings, improving visual grounding and improving performance across framings.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的推論を必要とするタスクでも視覚的な入力をあまり利用していないことが示されている。
本稿では,VLMが選択的に盲目であることを実証する。
代替フレーミングが同一の視覚的推論を要求する場合であっても、言語的フレーミングに基づいて視覚的入力に適用される注意度を変調する。
視覚的注意をプローブとして、フレーミングが画像上の注意の量と分布の両方を変えるかを定量化する。
複数選択やye/noのような制約のあるフレーミングは、オープンエンドに比べて画像コンテキストへの注意を著しく低くし、タスク関連領域へのフォーカスを減らし、非形式的トークンに注意を向ける。
さらに、この注意のずれが、劣化した精度とクロスフレーミングの不整合の主な原因であることを示す。
この機械的洞察に基づいて,学習可能なトークンを用いた軽量なプロンプトチューニング手法を導入し,オープンエンド環境で観察される頑健で視覚的な注意パターンの促進,視覚的接地の改善,フレーミングによるパフォーマンス向上を実現した。
関連論文リスト
- Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs [12.578567672069601]
本稿では,タスク関連トークンの注意力を高めるための学習自由注意介入アルゴリズムを提案する。
視覚的トークンの寄与を高めるため,ビーム探索復号法に視覚的注意値を注入し,より高い視覚的注意力を持つ解を同定する。
論文 参考訳(メタデータ) (2026-02-10T08:26:50Z) - Latent Implicit Visual Reasoning [59.39913238320798]
本稿では,視覚的推論トークンの発見と使用をLMMに指示するタスク非依存機構を提案する。
提案手法は直接微調整より優れ,様々な視覚中心のタスクにおいて最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-24T14:59:49Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Capturing Gaze Shifts for Guidance: Cross-Modal Fusion Enhancement for VLM Hallucination Mitigation [8.805397340243557]
視覚言語モデル (VLM) はしばしば幻覚、すなわち視覚入力では実証できない内容を生成する。
本稿では, Gaze Shift-Guided Cross-Modal Fusion Enhancement (GIFT) という手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T23:04:26Z) - VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning [69.64660280965971]
VideoAnchorは、サブスペース親和性を活用してフレーム間の視覚的手がかりを強化するプラグイン・アンド・プレイモジュールである。
InternVL2-8BとQ2.5VL-72Bのベンチマークで一貫した性能向上を示した。
私たちのコードはhttps://github.com/feufhd/VideoAnchor.comで公開されます。
論文 参考訳(メタデータ) (2025-09-29T17:54:04Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Decouple before Align: Visual Disentanglement Enhances Prompt Tuning [85.91474962071452]
プロンプトチューニング(PT)は、視覚言語モデルのタスク固有の伝達性を改善する際、顕著な効果を示した。
本稿では,従来見過ごされていた情報非対称性の問題について述べる。
本稿では,直感的なデカプリアライン概念に基づく効果的なPTフレームワークであるDAPTを提案する。
論文 参考訳(メタデータ) (2025-08-01T07:46:00Z) - See What You Are Told: Visual Attention Sink in Large Multimodal Models [4.024850952459758]
大規模マルチモーダルモデル(LMM)は、トランスフォーマーデコーダにおけるテキストと視覚トークン間の注意機構を活用することで、イメージを「見る」。
最近の知見は、LMMは特定の視覚トークンに常に高い注意重みを割り当てる異常な傾向にあることを示している。
本稿では、画像中心の頭部における注意を再分配する視覚的注意再分配(VAR)について紹介する。
論文 参考訳(メタデータ) (2025-03-05T09:55:07Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。