論文の概要: When Language Overwrites Vision: Over-Alignment and Geometric Debiasing in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.08245v2
- Date: Wed, 13 May 2026 05:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.803037
- Title: When Language Overwrites Vision: Over-Alignment and Geometric Debiasing in Vision-Language Models
- Title(参考訳): 言語がビジョンを上書きする場合:ビジョン言語モデルにおける過度なアライメントと幾何学的デバイアス
- Authors: Harshvardhan Saini, Samyak Jha, Yiming Tang, Dianbo Liu,
- Abstract要約: VLM(Vision-Language Models)は、より強力な高感度アプリケーションである。
定期的に幻覚を呈し、入力に存在しない内容について自信を持って記述する。
これらの障害モードを幾何学的オーバーアライメントにトレースする。
本稿では,トレーニングフリー推論戦略とバイアス対応微調整パラダイムの2つの補完策を提案する。
- 参考スコア(独自算出の注目度): 4.309108879640932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) increasingly power high-stakes applications, from medical imaging to autonomous systems, yet they routinely hallucinate, confidently describing content not present in the input. We investigate the root causes of these failure modes with a mechanistic analysis focusing on the decoder-based VLMs. We trace these failure modes to a geometric over-alignment: to bridge the modality gap required by attention mechanisms, decoder-based VLMs over-align visual embeddings with the text manifold, injecting a statistical linguistic bias that systematically overshadows fine-grained visual evidence. While prior work either aggressively closes this gap or suppresses hallucinations through expensive black-box decoding strategies, none addresses the underlying geometric cause. We provide the first quantitative characterization of this over-alignment, demonstrating that linguistic bias concentrates in the top principal components of a universal, dataset-agnostic text subspace. Building on this insight, we propose two complementary remedies: a training-free inference strategy and a bias-aware fine-tuning paradigm, both of which explicitly project out this subspace from visual representations. Our methods significantly reduce hallucinations across POPE, CHAIR, and AMBER benchmarks, and improve CLAIR scores on long-form captioning tasks, with the training-free variant adding no computational overhead over the base model.
- Abstract(参考訳): VLM(Vision-Language Models)は、医療画像から自律システムまで、高精細な応用にますます力を入れているが、彼らは日常的に幻覚を呈し、入力に存在しないコンテンツを自信を持って記述している。
本稿では,これらの故障モードの根本原因を,デコーダベースのVLMに着目した力学解析により検討する。
注意機構によって要求されるモダリティギャップを補うため、デコーダベースのVLMをテキスト多様体にオーバーアラインな視覚埋め込みをブリッジし、詳細な視覚的証拠を体系的に覆い隠す統計的統計学的バイアスを注入する。
先行研究は、このギャップを積極的に閉じるか、高価なブラックボックスデコード戦略によって幻覚を抑えるかのいずれかであるが、根底にある幾何学的原因には対処しない。
このオーバーアライメントを初めて定量的に評価し、言語バイアスが普遍的でデータセットに依存しないテキスト部分空間の上位の主成分に集中していることを示します。
この知見に基づいて、トレーニングなし推論戦略とバイアス対応微調整パラダイムの2つの補完的治療法を提案し、どちらも視覚的表現からこの部分空間を明示的に投影する。
提案手法は,POPE,CHAIR,AMBERベンチマーク間の幻覚を著しく低減し,長文キャプションタスクにおけるCLAIRスコアを改善する。
関連論文リスト
- SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models [36.40093869747498]
本稿では,スパースオートエンコーダの潜在空間で動作するポストホック・ゼロショット脱バイアスフレームワークであるスパース埋め込み変調(SEM)を提案する。
SEMは、クエリ関連ニューロンを保持しながらバイアス関連ニューロンを特定し、調節する。
この結果から,疎度な潜在表現は,視覚言語モデルのポストホックなデバイアス化に有効な基盤となることが示唆された。
論文 参考訳(メタデータ) (2026-03-19T15:28:08Z) - Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - SDCD: Structure-Disrupted Contrastive Decoding for Mitigating Hallucinations in Large Vision-Language Models [4.677212795400693]
弱い構造的監督下での視覚のパッチ動作は、物体幻覚の寄与要因として機能する。
SDCD(Structure-Disrupted Contrastive Decoding)と呼ばれる学習不要のアルゴリズムを導入する。
この構造のない視点下で高い信頼を維持するトークンをペナライズすることにより、SDCDはテクスチャ駆動バイアスを効果的に抑制する。
論文 参考訳(メタデータ) (2026-01-07T01:27:58Z) - Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - D-Attn: Decomposed Attention for Large Vision-and-Language Models [29.611769371733672]
大規模視覚・言語モデル(LVLM)のためのより柔軟な注意アーキテクチャである分解注意アーキテクチャ(D-Attn)を提案する。
D-AttnはLVLMの1次元因果自認を視覚的・視覚的・視覚的・テキスト的・テキスト的に分解する。
実験と解析によりD-Attnの有効性が検証され、複数の画像ベンチマークで大幅な改善が示された。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。