論文の概要: Optimizing LVLMs with On-Policy Data for Effective Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2512.00706v1
- Date: Sun, 30 Nov 2025 02:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.370548
- Title: Optimizing LVLMs with On-Policy Data for Effective Hallucination Mitigation
- Title(参考訳): 効果的な幻覚除去のためのオンラインデータを用いたLVLMの最適化
- Authors: Chengzhi Yu, Yifan Xu, Yifan Chen, Wenyi Zhang,
- Abstract要約: 我々は,LVLMの幻覚緩和におけるデータ生成過程を解析し,オン・ポリティクスのデータがオフ・ポリティクスのデータを著しく上回っていることを確認した。
本稿では,バイナリアノテーションを付与する幻覚の訓練について提案する。
特に,MMHalBench上のLLaVA-1.5-7Bの幻覚率を50.8%,Object HalBenchの平均幻覚率を79.5%削減する。
- 参考スコア(独自算出の注目度): 14.556157904513602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large vision-language models (LVLMs) have risen to be a promising approach for multimodal tasks. However, principled hallucination mitigation remains a critical challenge.In this work, we first analyze the data generation process in LVLM hallucination mitigation and affirm that on-policy data significantly outperforms off-policy data, which thus calls for efficient and reliable preference annotation of on-policy data. We then point out that, existing annotation methods introduce additional hallucination in training samples, which may enhance the model's hallucination patterns, to address this problem, we propose training a hallucination classifier giving binary annotations, which guarantee clean chosen samples for the subsequent alignment. To further harness of the power of on-policy data, we design a robust iterative direct preference optimization (DPO) algorithm adopting a dynamic sample reweighting scheme. We conduct comprehensive experiments on three benchmarks with comparison to 8 state-of-the-art baselines. In particular, our approach reduces the hallucination rate of LLaVA-1.5-7B on MMHalBench by 50.8% and the average hallucination rate on Object HalBench by 79.5%; more significantly, our method fully taps into the potential of open-source models, enabling LLaVA-1.5-13B to even surpass the performance of GPT-4V.
- Abstract(参考訳): 近年,大規模視覚言語モデル (LVLM) がマルチモーダルタスクにおいて有望なアプローチとなっている。
しかし, 原則的幻覚緩和は依然として重要な課題であり, 本稿ではまず, LVLM の幻覚緩和におけるデータ生成プロセスを分析し, オン・ポリティクスデータがオフ・ポリティクスデータより著しく優れており, オン・ポリティクスデータの効率的かつ信頼性の高い嗜好アノテーションが求められていることを確認する。
そこで本研究では,既存のアノテーション手法がトレーニングサンプルに新たな幻覚を導入し,モデルの幻覚パターンを向上させることでこの問題に対処し,バイナリアノテーションを付与する幻覚分類器を訓練し,その後のアライメントのためのクリーンなサンプルを保証することを提案する。
オンラインデータのパワーをさらに活用するために,動的サンプル再重み付け方式を採用した頑健な反復的直接選好最適化(DPO)アルゴリズムを設計する。
我々は,8つの最先端ベースラインと比較して,3つのベンチマークで包括的な実験を行う。
具体的には,MMHalBench上でのLLaVA-1.5-7Bの幻覚率を50.8%,Object HalBenchの平均幻覚率を79.5%削減する。
関連論文リスト
- Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization [65.12217781259525]
既存の選好アライメント手法は、モデル応答と人間の選好の整合性に重点を置いている。
改良されたモダリティアライメントを実現するエンティティ中心型マルチモーダル参照最適化(EMPO)を提案する。
EMPOは、Object-HalBenchで85.9%、MM-HalBenchで49.8%の幻覚率を減少させる。
論文 参考訳(メタデータ) (2025-06-04T15:03:50Z) - Mitigating Image Captioning Hallucinations in Vision-Language Models [13.707454974844095]
視覚言語モデルの幻覚は、信頼性と現実の応用性を妨げている。
本稿では,推論中の幻覚を緩和するための強化学習を用いた新しいテスト時間適応フレームワークを提案する。
本手法は, 幻覚緩和効果が68.3%向上し, 最先端のベースラインを上回った。
論文 参考訳(メタデータ) (2025-05-06T10:55:21Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key [24.229983103296988]
幻覚は、LVLM(Large Vision-Language Models)にとって大きな課題である。
本稿では,専門家のフィードバックを一意に活用して幻覚応答を補正するOn-Policy Alignment (OPA)-DPOフレームワークを提案する。
OPA-DPOは、AMBERベンチマークで13.26%、Object-Halベンチマークで5.39%のLLaVA-1.5-7Bの幻覚率をさらに低下させる。
論文 参考訳(メタデータ) (2025-01-16T17:48:03Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。