論文の概要: From Bias to Balance: Exploring and Mitigating Spatial Bias in LVLMs
- arxiv url: http://arxiv.org/abs/2509.21984v1
- Date: Fri, 26 Sep 2025 07:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.260652
- Title: From Bias to Balance: Exploring and Mitigating Spatial Bias in LVLMs
- Title(参考訳): バイアスからバランスへ:LVLMにおける空間バイアスの探索と緩和
- Authors: Yingjie Zhu, Xuefeng Bai, Kehai Chen, Yang Xiang, Weili Guan, Jun Yu, Min Zhang,
- Abstract要約: LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて大きな成功を収めている。
画像内の異なる場所に同じキー情報を置くと、モデルがどのように反応するかに焦点を当てる。
本研究では,すべての画像トークンに同一位置埋め込みを割り当てるシンプルかつ効果的な機構であるBaPAを導入する。
- 参考スコア(独自算出の注目度): 57.01486941224062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved remarkable success across a wide range of multimodal tasks, yet their robustness to spatial variations remains insufficiently understood. In this work, we present a systematic study of the spatial bias of LVLMs, focusing on how models respond when identical key visual information is placed at different locations within an image. Through a carefully designed probing dataset, we demonstrate that current LVLMs often produce inconsistent outputs under such spatial shifts, revealing a fundamental limitation in their spatial-semantic understanding. Further analysis shows that this phenomenon originates not from the vision encoder, which reliably perceives and interprets visual content across positions, but from the unbalanced design of position embeddings in the language model component. In particular, the widely adopted position embedding strategies, such as RoPE, introduce imbalance during cross-modal interaction, leading image tokens at different positions to exert unequal influence on semantic understanding. To mitigate this issue, we introduce Balanced Position Assignment (BaPA), a simple yet effective mechanism that assigns identical position embeddings to all image tokens, promoting a more balanced integration of visual information. Extensive experiments show that BaPA enhances the spatial robustness of LVLMs without retraining and further boosts their performance across diverse multimodal benchmarks when combined with lightweight fine-tuning. Further analysis of information flow reveals that BaPA yields balanced attention, enabling more holistic visual understanding.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて大きな成功を収めているが、空間的変動に対するロバスト性はまだ十分に理解されていない。
本研究では,LVLMの空間バイアスに関する系統的研究を行い,画像内の異なる場所に同じ鍵情報を置くと,モデルがどのように反応するかに着目した。
慎重に設計された探索データセットを通して、現在のLVLMは、そのような空間シフトの下で不整合出力をしばしば生成し、空間意味的理解の基本的な限界を明らかにする。
さらに分析したところ、この現象は視覚エンコーダからではなく、言語モデルコンポーネントに埋め込まれた位置埋め込みのバランスの取れない設計から生じていることがわかった。
特に、RoPEのような広く採用されている位置埋め込み戦略は、クロスモーダル相互作用の間に不均衡を導入し、画像トークンを異なる位置で導き、意味的理解に不平等な影響を与える。
この問題を緩和するために,すべての画像トークンに同一位置埋め込みを割り当て,よりバランスの取れた視覚情報の統合を促進する,シンプルで効果的なメカニズムであるBaPA(Ba Balanced Position Assignment)を導入する。
広汎な実験により,BaPAはリトレーニングなしでLVLMの空間ロバスト性を向上し,軽量微調整と組み合わせることで,様々なマルチモーダルベンチマークにおける性能をさらに向上することが示された。
情報フローのさらなる分析により、BaPAはより総合的な視覚的理解を可能にするバランスの取れた注意を得られることが明らかになった。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models [60.028070589466445]
本稿では,コンテンツ適応型トークン予算配分と関数対応トークン選択を統合したフレームワークHEROを提案する。
本研究は、HR-LVLMにおける効率的な推論に対する経験的洞察と実践的解決策の両方を提供する。
論文 参考訳(メタデータ) (2025-09-16T13:22:08Z) - MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。
本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。
これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文 参考訳(メタデータ) (2025-04-23T14:01:32Z) - Identifying and Mitigating Position Bias of Multi-image Vision-Language Models [8.477985931416303]
本稿では,LVLM(Large Vision-Language Models)が複数の画像にまたがる情報活用に苦慮していることを示す。
我々は、このバイアスを緩和する訓練なしのアプローチであるSoFt Attention(SoFA)を提案する。
実験により,SoFAは位置バイアスを低減し,既存のLVLMの推論性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-03-18T00:45:02Z) - Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration [22.39558434131574]
LVLM(Large Vision-Language Models)は、視覚的コンテンツと実際に一致しない応答を生成する。
我々は、単一の意味のない入力画像からバイアスを推定する、トレーニング不要なソリューションUniform Attention (UAC)を導入する。
また、画像中のオブジェクトがどこにあっても一貫した出力を強制する、微調整ソリューションであるDynamic Attention (DAC)を導入します。
論文 参考訳(メタデータ) (2025-02-04T03:27:38Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。