論文の概要: P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2606.03376v2
- Date: Wed, 03 Jun 2026 03:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.625524
- Title: P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization
- Title(参考訳): P$^2$-DPO: 校正直接選好最適化による知覚処理における接地幻覚
- Authors: Ruipeng Zhang, Zhihao Li, Haozhang Yuan, C. L. Philip Chen, Tong Zhang,
- Abstract要約: 幻覚は近年、LVLM(Large Vision-Language Models)において大きな研究の注目を集めている。
直接選好最適化(DPO)は、人間が提供した修正選好から直接学習することを目的としている。
既存の選好ペアは視覚に依存しないことが多く、その本質的に非政治的な性質は、モデル学習を導く上での有効性を制限している。
本稿では、モデルが独自の選好ペアから生成し学習する新しい訓練パラダイムである知覚処理直接選好最適化(P$2$-DPO)を提案する。
- 参考スコア(独自算出の注目度): 55.74731799669337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination has recently garnered significant research attention in Large Vision-Language Models (LVLMs). Direct Preference Optimization (DPO) aims to learn directly from the corrected preferences provided by humans, thereby addressing the hallucination issue. Despite its success, this paradigm has yet to specifically target the perceptual bottleneck in attended regions or address insufficient Visual Robustness against image degradation. Furthermore, existing preference pairs are often vision-agnostic and their inherently off-policy nature limits their effectiveness in guiding model learning. To address these challenges, we propose Perceptual Processing Direct Preference Optimization (P$^2$-DPO), a novel training paradigm in which the model generates and learns from its own preference pairs, thereby directly addressing the identified visual bottlenecks while inherently avoiding the issues of vision-agnostic and off-policy data. It introduces: (1) an on-policy preference pairs construction method targeting Focus-and-Enhance perception and Visual Robustness, and (2) a well-designed Calibration Loss to precisely align visual signals with the causal generation of text. Experimental results demonstrate that with a comparable amount of training data and cost, P$^2$-DPO outperforms strong baselines that rely on costly human feedback on benchmarks. Furthermore, evaluations on Attention Region Fidelity (ARF) and image degradation scenarios validate the effectiveness of P$^2$-DPO in addressing perceptual bottleneck in attended regions and improving Visual Robustness against degraded inputs.
- Abstract(参考訳): 幻覚は近年、LVLM(Large Vision-Language Models)において大きな研究の注目を集めている。
直接選好最適化(DPO)は、人間が提供した修正選好から直接学習することを目的としており、幻覚の問題に対処する。
その成功にもかかわらず、このパラダイムは、参加する領域における知覚的ボトルネックを特にターゲットにしたり、画像の劣化に対する視覚的ロバスト性に対処したりしていない。
さらに、既存の選好ペアは視覚に依存しないことが多く、その本質的に非政治的な性質は、モデル学習を導く上での有効性を制限している。
これらの課題に対処するために、知覚処理直接選好最適化(P$^2$-DPO)を提案する。これは、モデルが独自の選好ペアから生成・学習する、新しい訓練パラダイムである。
1)フォーカス・アンド・エンハンス知覚と視覚ロバストネスを対象とするオン・プライオリティ・ペア構築法,(2)視覚信号と因果関係のテキストを正確に整合させるキャリブレーション・ロスを導入する。
実験結果から、P$^2$-DPOは、同等のトレーニングデータとコストで、ベンチマークによる人的フィードバックに依存する強いベースラインを上回ります。
さらに、注意領域忠実度(ARF)と画像劣化シナリオの評価は、出席する領域における知覚的ボトルネックに対処し、劣化した入力に対する視覚的ロバスト性を改善する上で、P$^2$-DPOの有効性を検証する。
関連論文リスト
- Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models [53.15468578562038]
マルチモーダル大言語モデル(MLLM)のための不確実性を考慮した探索的直接参照最適化(UE-DPO)手法を提案する。
まず、与えられた画像にトークン予測を根拠にしなかったモデルの不確かさを定量化する。
次に、好ましいサンプルにおいて、視覚的に不足したトークンに対する学習のプレッシャーを高め、非推奨サンプルにおける有益な知識の過度な報酬化を緩和する。
論文 参考訳(メタデータ) (2026-05-06T13:08:12Z) - Global Context or Local Detail? Adaptive Visual Grounding for Hallucination Mitigation [31.028607494171336]
VLM(Vision-Language Models)は、物体の幻覚によってしばしば弱められる。
トレーニング不要な推論フレームワークであるPND(Positive-and-Negative Decoding)を紹介する。
PNDは、視覚的忠実性を強制するために、デコードプロセスに直接介入する。
論文 参考訳(メタデータ) (2026-04-27T12:23:00Z) - Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - OViP: Online Vision-Language Preference Learning for VLM Hallucination [44.14029765850719]
大型視覚言語モデル(LVLM)は幻覚に弱いままであり、しばしば視覚入力と一致しないコンテンツを生成する。
本稿では,モデル自身の幻覚に基づいて,コントラスト学習データを動的に構築するオンラインビジョン言語嗜好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T19:26:09Z) - V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization [21.248617886995103]
トレーニング時の視覚的コンテキスト学習を改善するために,視覚誘導直接選択最適化(V-DPO)を提案する。
分析の結果,V-DPOは画像コントラストの嗜好データからの学習に優れており,視覚的文脈のニュアンスを抽出し理解する能力に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T01:24:37Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。