論文の概要: Mitigating Visual Hallucinations via Semantic Curriculum Preference Optimization in MLLMs
- arxiv url: http://arxiv.org/abs/2509.24491v1
- Date: Mon, 29 Sep 2025 09:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.883125
- Title: Mitigating Visual Hallucinations via Semantic Curriculum Preference Optimization in MLLMs
- Title(参考訳): MLLMにおける意味的カリキュラム選好最適化による視覚幻覚の緩和
- Authors: Yuanshuai Li, Yuping Yan, Junfeng Tang, Yunxuan Li, Zeqi Zheng, Yaochu Jin,
- Abstract要約: MLLM(Multimodal Large Language Models)は様々なタスクのパフォーマンスを大幅に向上させたが、視覚幻覚に悩まされ続けている。
本稿では,MLLMアライメントのための新しいフレームワークであるSemantic Curriculum Preference Optimization (SCPO)を提案する。
SCPOは、私たちのSemantic Curriculum Preference Pairsデータセット上に構築された、進歩的で、容易にハードなカリキュラムを採用しています。
- 参考スコア(独自算出の注目度): 21.509992905027023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have significantly improved the performance of various tasks, but continue to suffer from visual hallucinations, a critical issue where generated responses contradict visual evidence. While Direct Preference Optimization(DPO) is widely used for alignment, its application to MLLMs often fails to capture fine-grained semantic differences and encourages shortcut learning. To address these challenges, we propose Semantic Curriculum Preference Optimization (SCPO), a novel framework for MLLM alignment. SCPO employs a progressive, easy-to-hard curriculum built upon our Semantic Curriculum Preference Pairs dataset, which provides fine-grained semantic contrasts sorted by difficulty. This curriculum is trained with a dynamic reference model and a novel symmetric, bidirectional objective to facilitate simultaneous learning from both textual and visual preferences. To our knowledge, SCPO is the first framework to unify semantics, symmetry, and curriculum for MLLMs alignment, effectively mitigating visual hallucinations. Extensive experiments on LLaVA models across various scales and versions validate that SCPO demonstrates superior performance compared to baseline models on multiple hallucination benchmarks, reducing the hallucination rate by up to 62.9%. Moreover, evaluations on generalized benchmarks show that SCPO improves factuality while preserving general capabilities, with its performance remaining stable across general vision-language benchmarks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は様々なタスクのパフォーマンスを著しく向上させたが、生成した応答が視覚的証拠と矛盾する重要な問題である視覚幻覚に悩まされ続けている。
直接選好最適化(DPO)はアライメントに広く用いられているが、MLLMへの応用は細粒度のセマンティックな違いを捉えることに失敗し、ショートカット学習を促進する。
これらの課題に対処するために,MLLMアライメントのための新しいフレームワークであるSemantic Curriculum Preference Optimization (SCPO)を提案する。
SCPOは、私たちのSemantic Curriculum Preference Pairsデータセット上に構築された、進歩的で、容易にハードなカリキュラムを採用しています。
このカリキュラムは、動的参照モデルと、テキストと視覚の両方の嗜好から同時学習を容易にするために、対称的で双方向な新しい目的で訓練されている。
我々の知る限り、SCPOはMLLMアライメントのための意味論、対称性、カリキュラムを統一する最初のフレームワークであり、視覚幻覚を効果的に緩和する。
様々なスケールおよびバージョンにわたるLLaVAモデルの大規模な実験により、SCPOは複数の幻覚ベンチマークのベースラインモデルよりも優れた性能を示し、幻覚率を62.9%まで下げた。
さらに、一般化されたベンチマークの評価では、SCPOは一般の能力を保ちながら事実性を向上し、その性能は一般のビジョンベンチマークで安定している。
関連論文リスト
- Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization [69.05600758833471]
マルチモーダル大言語モデル(MLLM)における幻覚を緩和するための効果的なアプローチとして、直接選好最適化(DPO)が登場している。
我々は、直接選好監督(応答対)を伴う対称選好学習を行うシンメトリ・マルチモーダル選好最適化(SymMPO)を提案する。
従来の順序的嗜好学習に加えて、SymMPOは、左右の選好ペア間の選好ギャップを定量的に調節する、選好マージン整合性損失を導入している。
論文 参考訳(メタデータ) (2025-06-13T12:29:15Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [40.77611907215627]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。