論文の概要: Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.11712v1
- Date: Fri, 13 Jun 2025 12:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.779801
- Title: Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization
- Title(参考訳): 理論一貫性の対称性を持つマルチモーダル選好最適化による幻覚の緩和
- Authors: Wenqi Liu, Xuemeng Song, Jiaxi Li, Yinwei Wei, Na Zheng, Jianhua Yin, Liqiang Nie,
- Abstract要約: マルチモーダル大言語モデル(MLLM)における幻覚を緩和するための効果的なアプローチとして、直接選好最適化(DPO)が登場している。
我々は、直接選好監督(応答対)を伴う対称選好学習を行うシンメトリ・マルチモーダル選好最適化(SymMPO)を提案する。
従来の順序的嗜好学習に加えて、SymMPOは、左右の選好ペア間の選好ギャップを定量的に調節する、選好マージン整合性損失を導入している。
- 参考スコア(独自算出の注目度): 58.64721525687295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) has emerged as an effective approach for mitigating hallucination in Multimodal Large Language Models (MLLMs). Although existing methods have achieved significant progress by utilizing vision-oriented contrastive objectives for enhancing MLLMs' attention to visual inputs and hence reducing hallucination, they suffer from non-rigorous optimization objective function and indirect preference supervision. To address these limitations, we propose a Symmetric Multimodal Preference Optimization (SymMPO), which conducts symmetric preference learning with direct preference supervision (i.e., response pairs) for visual understanding enhancement, while maintaining rigorous theoretical alignment with standard DPO. In addition to conventional ordinal preference learning, SymMPO introduces a preference margin consistency loss to quantitatively regulate the preference gap between symmetric preference pairs. Comprehensive evaluation across five benchmarks demonstrate SymMPO's superior performance, validating its effectiveness in hallucination mitigation of MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)における幻覚の緩和手法として,DPO(Direct Preference Optimization)が提案されている。
既存の手法は、視覚入力に対するMLLMの注意力を高め、幻覚を減らすために、視覚指向のコントラスト目標を活用することで大きな進歩を遂げてきたが、それらは非厳密な最適化目標関数と間接的な選好監督に悩まされている。
これらの制約に対処するため、視覚的理解の強化のために、対称的優先学習を行うSymmetric Multimodal Preference Optimization (SymMPO)を提案し、標準DPOとの厳密な理論的整合性を維持しながら、直接的優先監督(応答ペア)を行う。
従来の順序的嗜好学習に加えて、SymMPOは、左右の選好ペア間の選好ギャップを定量的に調節する、選好マージン整合性損失を導入している。
5つのベンチマークの総合的な評価は、SymphOの優れた性能を示し、MLLMの幻覚軽減効果の有効性を検証している。
関連論文リスト
- Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [66.54211199959298]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。
MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。
視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文 参考訳(メタデータ) (2025-05-20T03:59:05Z) - AdaViP: Aligning Multi-modal LLMs via Adaptive Vision-enhanced Preference Optimization [26.03204301595711]
本稿では,2つの重要なイノベーションを通じて制限に対処する適応型視覚強調最適化(AdaViP)を提案する。
視覚に基づく選好ペア構築は、複数の視覚基盤モデルを統合し、画像から重要な視覚要素を戦略的に除去する。
AdaViP-7Bは、Object HalBench上でそれぞれ応答レベルと言及レベルの幻覚を93.7%、96.4%減少させる。
論文 参考訳(メタデータ) (2025-04-22T06:19:38Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。