論文の概要: Language Bias in LVLMs: From In-Depth Analysis to Simple and Effective Mitigation
- arxiv url: http://arxiv.org/abs/2605.25036v1
- Date: Sun, 24 May 2026 12:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.665585
- Title: Language Bias in LVLMs: From In-Depth Analysis to Simple and Effective Mitigation
- Title(参考訳): LVLMにおける言語バイアス: 深い分析からシンプルで効果的な緩和へ
- Authors: Yangneng Chen, Jing Li,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚的理解によって大きな言語モデルを拡張するが、幻覚に弱いままである。
近年の研究では、LVLMが視覚入力を無視しながらテキストを過度に参照する傾向にある言語バイアスにこの問題を関連付けている。
本稿では,言語バイアスの系統的研究を行い,訓練中のモダリティの相違点の根源を同定する。
- 参考スコア(独自算出の注目度): 3.6330067010404705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) extend large language models with visual understanding, but remain vulnerable to hallucination, where outputs are fluent yet inconsistent with images. Recent studies link this issue to language bias-the tendency of LVLMs to over-rely on text while neglecting visual inputs. Yet most analyses remain empirical without uncovering its underlying cause. In this paper, we provide a systematic study of language bias and identify its root in modality misalignment during training. Our analysis shows that both Visual Instruction Tuning (VIT) and Direct Preference Optimization (DPO) often prioritize textual improvements, which may cause LVLMs to overly lean toward language modeling rather than balanced multimodal understanding. To address this, we propose two simple yet effective methods: Language Bias Regularization (LBR) which mitigates language bias through regularization during instruction tuning, and Language Bias Penalty (LBP), which penalizes language bias in the DPO training process. Extensive experiments across diverse models and benchmarks demonstrate the effectiveness of our approach. LBR consistently improves performance on over ten general benchmarks, while LBP significantly reduces hallucination and improves trustworthiness. Together, these methods not only mitigate language bias but also advance the overall alignment of LVLMs, all without introducing any additional data or auxiliary models. Our code is publicly available at https://github.com/lab-klc/LVLM-Language-Bias.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、大きな言語モデルを視覚的理解で拡張するが、幻覚に弱いままであり、出力は画像と不整合である。
近年の研究では、LVLMが視覚入力を無視しながらテキストを過度に参照する傾向が言語バイアスと結びついている。
しかし、ほとんどの分析は根本原因を明らかにすることなく実証的なままである。
本稿では,言語バイアスを体系的に研究し,学習中のモダリティの不適応の根源を同定する。
我々の分析では、視覚的インストラクションチューニング(VIT)と直接選好最適化(DPO)の両方がテキスト改善を優先していることが示され、LVLMはバランスの取れたマルチモーダル理解よりも言語モデリングに過度に傾倒する可能性がある。
そこで本研究では,言語バイアス規則化(LBR)と,DPOトレーニングプロセスにおいて言語バイアスを罰するLBP(Language Bias Penalty)の2つの方法を提案する。
多様なモデルとベンチマークにわたる大規模な実験は、我々のアプローチの有効性を実証している。
LBRは10以上のベンチマークで継続的に性能を改善し、LBPは幻覚を著しく低減し、信頼性を向上させる。
これらの手法は、言語バイアスを緩和するだけでなく、LVLMの全体的なアライメントを、追加のデータや補助モデルを導入することなく前進させる。
私たちのコードはhttps://github.com/lab-klc/LVLM-Language-Bias.comで公開されています。
関連論文リスト
- Mind the Pause: Disfluency-Aware Objective Tuning for Multilingual Speech Correction with LLMs [32.94544776067079]
ASRの書き起こしには、フィラー、繰り返し、偽の開始などの不一致がしばしば含まれている。
既存のアプローチのほとんどは、除去のための非流動的なトークンを特定することに焦点を当てた古典的なモデルに依存している。
本稿では,まずシーケンスタグが不自由なトークンをマークする多言語補正パイプラインを提案し,これらの信号はLLMの微調整を指導し,書き起こしを流用テキストに書き換える。
論文 参考訳(メタデータ) (2026-05-12T15:11:36Z) - Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts [29.864293711943038]
本研究では, 言語モデルにおいて, ステレオタイプ誘導語を検出し, ニューロンレベルのバイアスをもたらすフレームワークを提案する。
本フレームワークはまず, 集団間の比較分析により, ステレオタイプ誘導形容詞と名詞を識別する。
3つの LLM 実験により,本手法はモデル全体の性能を保ちながらバイアスを効果的に低減することを示した。
論文 参考訳(メタデータ) (2026-02-04T10:27:36Z) - Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。