論文の概要: LPOI: Listwise Preference Optimization for Vision Language Models
- arxiv url: http://arxiv.org/abs/2505.21061v1
- Date: Tue, 27 May 2025 11:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.616165
- Title: LPOI: Listwise Preference Optimization for Vision Language Models
- Title(参考訳): LPOI:視覚言語モデルに対するリストワイズ選好最適化
- Authors: Fatemeh Pesaran Zadeh, Yoojin Oh, Gunhee Kim,
- Abstract要約: 我々は,VLMにおける幻覚の低減のために開発された,最初のオブジェクト認識型リストワイド選好最適化であるLPOIを提案する。
LPOIは被写体視認性の上昇順に画像をランク付けし、視覚的忠実さを維持しながら幻覚を効果的に低減する。
MMHal, AMBER, Object HalBenchの総合的な実験により、LPOIは幻覚の低減とVLM性能の向上において既存の選好最適化手法よりも優れていることを確認した。
- 参考スコア(独自算出の注目度): 36.12465376767014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large VLMs with human preferences is a challenging task, as methods like RLHF and DPO often overfit to textual information or exacerbate hallucinations. Although augmenting negative image samples partially addresses these pitfalls, no prior work has employed listwise preference optimization for VLMs, due to the complexity and cost of constructing listwise image samples. In this work, we propose LPOI, the first object-aware listwise preference optimization developed for reducing hallucinations in VLMs. LPOI identifies and masks a critical object in the image, and then interpolates the masked region between the positive and negative images to form a sequence of incrementally more complete images. The model is trained to rank these images in ascending order of object visibility, effectively reducing hallucinations while retaining visual fidelity. LPOI requires no extra annotations beyond standard pairwise preference data, as it automatically constructs the ranked lists through object masking and interpolation. Comprehensive experiments on MMHalBench, AMBER, and Object HalBench confirm that LPOI outperforms existing preference optimization methods in reducing hallucinations and enhancing VLM performance. We make the code available at https://github.com/fatemehpesaran310/lpoi.
- Abstract(参考訳): RLHFやDPOのような手法は、しばしばテキスト情報に過度に適合し、幻覚を悪化させるため、人間の好みで大きなVLMを調整することは難しい課題である。
負の画像サンプルの増大は、これらの落とし穴に部分的に対処するが、リストワイズ画像サンプルの構築の複雑さとコストのために、VLMに対するリストワイズ最適化を用いた以前の研究は行われていない。
そこで本研究では,VLMにおける幻覚の低減を目的とした,オブジェクト認識型リストワイド選好最適化のLPOIを提案する。
LPOIは画像内の臨界物体を特定してマスクし、正と負の領域を補間し、さらに完全な画像の連続を形成する。
モデルは、これらの画像を物体の視認性の上昇順にランク付けし、視覚的忠実さを維持しながら幻覚を効果的に低減するように訓練されている。
LPOIは、オブジェクトマスキングと補間によってランク付けされたリストを自動的に構築するため、標準ペアの好みデータ以外の追加アノテーションを必要としない。
MMHalBench、AMBER、Object HalBenchの総合的な実験により、LPOIは幻覚の低減とVLM性能の向上において既存の優先最適化手法よりも優れていることを確認した。
コードはhttps://github.com/fatemehpesaran310/lpoiで公開しています。
関連論文リスト
- Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization [21.248617886995103]
トレーニング時の視覚的コンテキスト学習を改善するために,視覚誘導直接選択最適化(V-DPO)を提案する。
分析の結果,V-DPOは画像コントラストの嗜好データからの学習に優れており,視覚的文脈のニュアンスを抽出し理解する能力に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T01:24:37Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [11.796170286878056]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合に有効である
しばしば画像情報よりもテキストを好んでおり、信頼できない出力や視覚幻覚をもたらす。
テキストと画像の嗜好のバランスをとるために,MFPO(Modality-Fair Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-10-20T08:56:52Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Unsupervised network for low-light enhancement [27.052207978537098]
監視ネットワークは、ペア画像を用いた低照度化の課題に対処する。
文脈誘導照明適応規範(CIN)を用いた教師なし低照度化ネットワークを提案する。
また、低照度画像から複数の強調画像を生成することができる領域適応型単一入力多重出力(SIMO)モデルを提案する。
論文 参考訳(メタデータ) (2023-06-05T13:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。