論文の概要: Investigating Spatial Attention Bias in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.18231v1
- Date: Sat, 20 Dec 2025 06:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.243089
- Title: Investigating Spatial Attention Bias in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける空間的注意バイアスの検討
- Authors: Aryan Chaudhary, Sanchit Goyal, Pratik Narang, Dhruv Kumar,
- Abstract要約: 本研究は視覚言語モデル(VLM)における空間的注意バイアスの系統的同定と特徴付けを行う。
約97%のケースで左位置のコンテンツを記述するモデルを用いて、このバイアスが異なるアーキテクチャにわたって持続していることを示します。
アラビア語で表現されたモデルをテストすると、左右の言語訓練にもかかわらずバイアスが持続し、言語読解の方向を主な原因として除外することが明らかになった。
- 参考スコア(独自算出の注目度): 8.387055152856824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models have demonstrated remarkable capabilities in understanding visual content, yet systematic biases in their spatial processing remain largely unexplored. This work identifies and characterizes a systematic spatial attention bias where VLMs consistently prioritize describing left-positioned content before right-positioned content in horizontally concatenated images. Through controlled experiments on image pairs using both open-source and closed-source models, we demonstrate that this bias persists across different architectures, with models describing left-positioned content first in approximately 97% of cases under neutral prompting conditions. Testing on an Arabic-finetuned model reveals that the bias persists despite right-to-left language training, ruling out language reading direction as the primary cause. Investigation of training dataset annotation guidelines from PixMo and Visual Genome reveals no explicit left-first ordering instructions, suggesting the bias is consistent with architectural factors rather than explicit training data instructions. These findings reveal fundamental limitations in how current VLMs process spatial information.
- Abstract(参考訳): 視覚言語モデルは、視覚的内容を理解する際、顕著な能力を示してきたが、空間的処理における体系的なバイアスは、ほとんど探索されていないままである。
本研究は,左右に連結した画像において,左右に配置されたコンテンツを記述する前に,VLMが常に左右に配置されたコンテンツを記述するという,系統的な空間的注意バイアスを特定し,特徴付ける。
オープンソースモデルとクローズドソースモデルの両方を用いた画像ペアの制御実験を通じて、このバイアスは異なるアーキテクチャにまたがって持続することを示した。
アラビア語で表現されたモデルをテストすると、左右の言語訓練にもかかわらずバイアスが持続し、言語読解の方向を主な原因として除外することが明らかになった。
PixMoとVisual Genomeによるトレーニングデータセットアノテーションガイドラインの調査では、明示的な左ファーストの順序付け命令は明らかにされていない。
これらの結果は、現在のVLMが空間情報をどう処理するかの根本的な制限を明らかにしている。
関連論文リスト
- From Bias to Balance: Exploring and Mitigating Spatial Bias in LVLMs [57.01486941224062]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて大きな成功を収めている。
画像内の異なる場所に同じキー情報を置くと、モデルがどのように反応するかに焦点を当てる。
本研究では,すべての画像トークンに同一位置埋め込みを割り当てるシンプルかつ効果的な機構であるBaPAを導入する。
論文 参考訳(メタデータ) (2025-09-26T07:07:03Z) - Interpreting Social Bias in LVLMs via Information Flow Analysis and Multi-Round Dialogue Evaluation [1.7997395646080083]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な進歩を遂げているが、社会的偏見も顕著である。
本稿では,情報フロー解析と多ラウンド対話評価を組み合わせた説明フレームワークを提案する。
実験により、LVLMは異なる人口集団の画像を処理する際に、情報利用の体系的な差異を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T12:28:44Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。