論文の概要: Unveiling Intrinsic Text Bias in Multimodal Large Language Models through Attention Key-Space Analysis
- arxiv url: http://arxiv.org/abs/2510.26721v1
- Date: Thu, 30 Oct 2025 17:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.936989
- Title: Unveiling Intrinsic Text Bias in Multimodal Large Language Models through Attention Key-Space Analysis
- Title(参考訳): キー空間解析による多モーダル大言語モデルにおける固有テキストバイアスの解消
- Authors: Xinhan Zheng, Huyu Wu, Xueting Wang, Haiyun Jiang,
- Abstract要約: MLLM(Multimodal large language model)は、視覚言語データを処理する際に、テキスト入力の顕著な好みを示す。
モデルの内部構造からバイアスが生じることを提案する。
- 参考スコア(独自算出の注目度): 19.111897718147656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) exhibit a pronounced preference for textual inputs when processing vision-language data, limiting their ability to reason effectively from visual evidence. Unlike prior studies that attribute this text bias to external factors such as data imbalance or instruction tuning, we propose that the bias originates from the model's internal architecture. Specifically, we hypothesize that visual key vectors (Visual Keys) are out-of-distribution (OOD) relative to the text key space learned during language-only pretraining. Consequently, these visual keys receive systematically lower similarity scores during attention computation, leading to their under-utilization in the context representation. To validate this hypothesis, we extract key vectors from LLaVA and Qwen2.5-VL and analyze their distributional structures using qualitative (t-SNE) and quantitative (Jensen-Shannon divergence) methods. The results provide direct evidence that visual and textual keys occupy markedly distinct subspaces within the attention space. The inter-modal divergence is statistically significant, exceeding intra-modal variation by several orders of magnitude. These findings reveal that text bias arises from an intrinsic misalignment within the attention key space rather than solely from external data factors.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、視覚言語データを処理する際にテキスト入力を顕著に好み、視覚的証拠から効果的に推論する能力を制限する。
このテキストバイアスをデータ不均衡や命令チューニングなどの外部要因に属性付ける以前の研究とは異なり、バイアスはモデルの内部構造に由来する。
具体的には、視覚的キーベクトル(Visual Keys)は、言語のみの事前学習中に学習したテキストキー空間に対して、アウト・オブ・ディストリビューション(OOD)であると仮定する。
その結果、これらの視覚キーは、注意計算中に体系的に類似度スコアが低くなり、文脈表現の未使用化につながる。
この仮説を検証するため,LLaVA と Qwen2.5-VL から鍵ベクトルを抽出し,定性的 (t-SNE) と定量的 (Jensen-Shannon divergence) 法を用いて分布構造を解析した。
その結果、視覚的およびテキスト的キーが注目空間内の明らかに異なる部分空間を占めるという直接的な証拠が得られた。
モーダル間分岐は統計的に有意であり、モーダル内変異を数桁超える。
これらの結果から, テキストバイアスは, 外部データ要素のみからではなく, 注意鍵空間内における本質的な不一致から生じることが明らかとなった。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Semantic and Structural Analysis of Implicit Biases in Large Language Models: An Interpretable Approach [1.5749416770494704]
モデル出力に隠された社会的バイアスを特定するための解釈可能なバイアス検出手法を提案する。
この方法は、ネストされた意味表現と文脈的コントラスト機構を組み合わせる。
この評価は、バイアス検出精度、セマンティック一貫性、文脈感度など、いくつかの重要な指標に焦点を当てている。
論文 参考訳(メタデータ) (2025-08-08T09:21:10Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Interpreting Social Bias in LVLMs via Information Flow Analysis and Multi-Round Dialogue Evaluation [1.7997395646080083]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な進歩を遂げているが、社会的偏見も顕著である。
本稿では,情報フロー解析と多ラウンド対話評価を組み合わせた説明フレームワークを提案する。
実験により、LVLMは異なる人口集団の画像を処理する際に、情報利用の体系的な差異を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T12:28:44Z) - Beyond Early-Token Bias: Model-Specific and Language-Specific Position Effects in Multilingual LLMs [50.07451351559251]
我々は,5言語(英語,ロシア語,ドイツ語,ヒンディー語,ベトナム語)にまたがる調査を行った。
位置バイアスが即時戦略とどのように相互作用し、出力エントロピーに影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-05-22T02:23:00Z) - Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [29.745218855471787]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。
トークンと事前学習がバイアスやその他の望ましくないコンテンツのバックドアとして機能するかについて議論する。
トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文 参考訳(メタデータ) (2024-12-14T18:18:52Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Refining Skewed Perceptions in Vision-Language Contrastive Models through Visual Representations [0.033483662989441935]
大規模視覚言語コントラストモデル(VLCM)は、様々な下流タスクで顕著な成功を収めている。
それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。
本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文 参考訳(メタデータ) (2024-05-22T22:03:11Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。