論文の概要: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
- arxiv url: http://arxiv.org/abs/2510.10466v1
- Date: Sun, 12 Oct 2025 06:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.955602
- Title: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
- Title(参考訳): 画像がラウダーを鳴らすとき: 言語バイアスによるVLMの幻覚の軽減
- Authors: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi,
- Abstract要約: 我々は、言語バイアスが幻覚にどのように寄与するかを分析し、次にCMG(Cross-Modal Guidance)を導入する。
CMGは、オリジナルのモデルの出力と劣化した視覚言語的注意を持つものとの違いを活用することで幻覚に対処する。
CMGは幻覚特異的なベンチマークで異なるVLMの性能を改善し、効果的に一般化できることを示す。
- 参考スコア(独自算出の注目度): 36.230615314462426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚と言語の両方のコンテキストをマルチモーダルで理解する能力を示す。
しかしながら、既存のVLMは幻覚の深刻な問題に直面しており、VLMは言語に精通しているが、以前の文脈でのイメージとは無関係な応答を生成する傾向にある。
この問題を解決するために,言語バイアスが幻覚にどのように寄与するかを解析し,元のモデルの出力分布と劣化した視覚的注目度の違いを生かして,幻覚に対処する訓練不要な復号法であるクロスモーダルガイダンス(CMG)を導入する。
実際には、選択されたトランスフォーマー層における最も影響力のある画像トークンの注意重みを適応的にマスキングし、具体的な種類の劣化として視覚言語知覚を劣化させる。
このような劣化によって引き起こされる復号化は視覚的文脈の知覚を強調し、VLMの能力を損なうことなく言語バイアスを著しく減少させる。
実験セクションでは、包括的な研究を行う。
いずれの結果も,追加条件もトレーニングコストも伴わないCMGの優位性を示した。
また,幻覚特異的ベンチマークにおいて,CMGが異なるVLMの性能を改善し,効果的に一般化できることを定量的に示す。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding [12.82009632507056]
既存の視覚言語モデル(VLM)はしばしば視覚幻覚に悩まされ、生成した応答は視覚入力に基づかない不正確さを含む。
本稿では、注意に基づいて関連した視覚トークンを反復的に分離し、対応する領域を拡大する新しい視覚的復号化手法であるPerception Magnifier (PM)を提案する。
論文 参考訳(メタデータ) (2025-03-13T09:14:11Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。
膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。
幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。
従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文 参考訳(メタデータ) (2025-01-06T00:39:31Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。