論文の概要: Reducing Hallucination in Vision-Language Models via Stage-wise Preference Optimization under Distribution Shift
- arxiv url: http://arxiv.org/abs/2605.16411v1
- Date: Wed, 13 May 2026 15:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.304273
- Title: Reducing Hallucination in Vision-Language Models via Stage-wise Preference Optimization under Distribution Shift
- Title(参考訳): 分布シフト下の段階的選好最適化による視覚言語モデルにおける幻覚の低減
- Authors: Qinwu Xu,
- Abstract要約: 幻覚は視覚言語モデル(VLM)における根本的な課題である。
目的とするマルチモーダル構成による幻覚低減のためのステージワイドな選好最適化フレームワークを提案する。
オープンソースのベンチマークと実世界のマルチモーダル評価シナリオの実験では、接地一貫性の改善、幻覚の低減、より情報的な接地応答が示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hallucination remains a fundamental challenge in vision-language models (VLMs), where autoregressive generation may produce linguistically plausible yet physically inconsistent or visually ungrounded responses due to likelihood maximization under joint probabilistic modeling. We propose a stage-wise preference optimization framework for hallucination reduction through targeted multimodal data construction. Rather than directly optimizing on generic instruction-following data, our approach progressively constructs hallucination-focused preference pairs near known failure boundaries. The framework emphasizes ambiguous spatial orientation, object relationships, OCR uncertainty, and adversarial false-premise training. Hallucinated negatives are generated through minimally perturbed yet visually inconsistent alternatives, enabling Direct Preference Optimization (DPO) to better separate grounded reasoning from plausible hallucination. Experiments on open-source benchmarks and real-world multimodal evaluation scenarios demonstrate improved grounding consistency, reduced hallucination, and more informative grounded responses. Cross-model qualitative evaluation further shows that the proposed multimodal LLM DPO framework produces more visually grounded responses than several frontier proprietary VLMs, such as in ambiguous spatial reasoning and adversarial false-premise settings. The results suggest that hallucination may arise not only from limited model capacity, but also from inherent tendencies of autoregressive probabilistic generation to favor linguistically plausible continuations under weak visual grounding. Future work may explore physical consistency modeling, uncertainty-aware multimodal reasoning, and architectural alternatives beyond standard autoregressive decoding.
- Abstract(参考訳): 幻覚は、視覚言語モデル(VLM)における根本的な課題であり、自己回帰生成は、言語学的に妥当で、物理的に矛盾する、あるいは視覚的にアングラウンドな応答を、関節確率モデルの下での極大化によって生み出すことができる。
目的とするマルチモーダルデータ構築による幻覚低減のためのステージワイズ優先最適化フレームワークを提案する。
一般的な命令追従データを直接最適化する代わりに、本手法は、既知の障害境界付近で幻覚に焦点を絞った選好ペアを段階的に構築する。
このフレームワークは、あいまいな空間的指向、オブジェクト関係、OCRの不確実性、および敵対的虚構訓練を強調する。
ハロシン化陰性は、最小摂動でも視覚的に一貫性のない代替手段によって生成され、直接選好最適化(DPO)により、プラプシブル・ハロシン化から基底的推論をより良く分離することができる。
オープンソースのベンチマークと実世界のマルチモーダル評価シナリオの実験では、接地一貫性の改善、幻覚の低減、より情報的な接地応答が示されている。
クロスモデル定性的評価により、提案したマルチモーダルLDM DPOフレームワークは、不明瞭な空間的推論や逆向きの前提設定など、複数のフロンティアプロプライエタリなVLMよりも、より視覚的に基底化された応答を生成することが示された。
その結果、幻覚はモデル能力の限界だけでなく、自己回帰的確率的生成の固有の傾向から生じ、弱い視覚的接地下での言語学的に妥当な継続が好まれることが示唆された。
今後の研究は、物理一貫性モデリング、不確実性を意識したマルチモーダル推論、および標準的な自己回帰的復号化を超えるアーキテクチャ上の代替品を検討するかもしれない。
関連論文リスト
- Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models [53.15468578562038]
マルチモーダル大言語モデル(MLLM)のための不確実性を考慮した探索的直接参照最適化(UE-DPO)手法を提案する。
まず、与えられた画像にトークン予測を根拠にしなかったモデルの不確かさを定量化する。
次に、好ましいサンプルにおいて、視覚的に不足したトークンに対する学習のプレッシャーを高め、非推奨サンプルにおける有益な知識の過度な報酬化を緩和する。
論文 参考訳(メタデータ) (2026-05-06T13:08:12Z) - Online Self-Calibration Against Hallucination in Vision-Language Models [23.13137973421435]
LVLM(Large Vision-Language Models)はしばしば幻覚に悩まされ、入力画像にない視覚的詳細を含む記述を生成する。
textbfOnline textbfSelf-textbfCAlibtextbfRation (OSCAR) を提案する。
論文 参考訳(メタデータ) (2026-05-01T01:03:05Z) - Decoding by Perturbation: Mitigating MLLM Hallucinations via Dynamic Textual Perturbation [36.57014987764294]
Decode by Perturbation (DeP)は、事前誘発幻覚を緩和するトレーニング不要のフレームワークである。
動的プローブを用いて、多レベルテキストの摂動を潜在言語に応用する。
大規模な実験により、DePは幻覚を効果的に減らし、複数のベンチマークで優れたパフォーマンスを達成することが確認された。
論文 参考訳(メタデータ) (2026-04-14T08:15:44Z) - Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction [49.96701537295129]
LVLM(Large Vision-Language Models)は、モーダルなタスク間で大きな成功を収めてきたが、幻覚によって妨げられている。
既存の方法は幻覚を緩和するが、しばしば生成行動を変化させ、結果として出力が短くなり、トークンの分布がシフトする。
幻覚緩和のための制御および選択的な潜伏介入を行う効果的なプラグアンドプレイフレームワークであるMESAを提案する。
論文 参考訳(メタデータ) (2026-04-09T07:31:27Z) - ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration [71.21097024566285]
LVLM(Large-Language Models)はしばしば深刻な幻覚に悩まされる。
既存の緩和戦略は、視覚的焦点を強化するか、強い先行を抑えるために、言語的、単一段階の状態に依存している。
本研究では,適応的な文脈情報の統合を通じて幻覚を緩和する学習自由推論介入手法であるAdaptive Context in VisionTegration (ACT)を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:49:50Z) - MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization [4.088161686930475]
オームニLLMにおけるモーダリティグラウンドリングを改善するためのモーダリティデカップリング直接選好最適化(MoD-DPO)を提案する。
MoD-DPOは、無関係なモダリティにおける汚職への不変性、および関連するモダリティにおける摂動に対する感受性を明示的に強制するモダリティ対応正規化用語を導入している。
実験により、MoD-DPOは認識精度と幻覚抵抗を一貫して改善し、従来の優先最適化基準よりも優れていた。
論文 参考訳(メタデータ) (2026-03-03T17:50:24Z) - Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:00:55Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization [65.12217781259525]
既存の選好アライメント手法は、モデル応答と人間の選好の整合性に重点を置いている。
改良されたモダリティアライメントを実現するエンティティ中心型マルチモーダル参照最適化(EMPO)を提案する。
EMPOは、Object-HalBenchで85.9%、MM-HalBenchで49.8%の幻覚率を減少させる。
論文 参考訳(メタデータ) (2025-06-04T15:03:50Z) - OViP: Online Vision-Language Preference Learning for VLM Hallucination [44.14029765850719]
大型視覚言語モデル(LVLM)は幻覚に弱いままであり、しばしば視覚入力と一致しないコンテンツを生成する。
本稿では,モデル自身の幻覚に基づいて,コントラスト学習データを動的に構築するオンラインビジョン言語嗜好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T19:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。