論文の概要: Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2509.25717v1
- Date: Tue, 30 Sep 2025 03:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.408163
- Title: Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization
- Title(参考訳): 多否定的マルチモーダル直接選好最適化のための重要サンプリング
- Authors: Xintong Li, Chuhan Wang, Junda Wu, Rohan Surana, Tong Yu, Julian McAuley, Jingbo Shang,
- Abstract要約: MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
- 参考スコア(独自算出の注目度): 68.64764778089229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has recently been extended from text-only models to vision-language models. However, existing methods rely on oversimplified pairwise comparisons, generating a single negative image via basic perturbations or similarity-based retrieval, which fail to capture the complex nature of multimodal preferences, inducing optimization bias and hallucinations. To address this issue, we propose MISP-DPO, the first framework to incorporate multiple, semantically diverse negative images in multimodal DPO via the Plackett-Luce model. Our method embeds prompts and candidate images in CLIP (Contrastive Language-Image Pretraining) space and applies a sparse autoencoder to uncover semantic deviations into interpretable factors. Negative samples are selected based on reconstruction difficulty, semantic deviation from the positive, and mutual diversity, yielding broader and more informative supervision. To handle multi-negative comparisons, we adopt a Plackett-Luce objective and introduce an importance sampling strategy that improves training efficiency. Experiments across five diverse benchmarks demonstrate that MISP-DPO consistently improves multimodal alignment over prior methods, validating the effectiveness of semantic-aware, multi-negative sampling in preference-based learning.
- Abstract(参考訳): DPO(Direct Preference Optimization)はテキストのみのモデルから視覚言語モデルまで拡張されている。
しかし、既存の手法は、過度に単純化されたペアワイズ比較に依存し、基本的な摂動や類似性に基づく検索によって単一の負の画像を生成し、マルチモーダルな選好の複雑な性質を捉えることができず、最適化バイアスや幻覚を引き起こす。
この問題に対処するために,MISP-DPOを提案する。MISP-DPOは,Planet-Luceモデルを用いて,複数の意味的に多様な負の画像をマルチモーダルDPOに組み込む最初のフレームワークである。
提案手法は,CLIP(Contrastive Language- Image Pretraining)空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な要素に発見するためにスパースオートエンコーダを適用する。
否定的なサンプルは、再構築難易度、肯定的および相互多様性からのセマンティックな逸脱に基づいて選択され、より広範かつより情報的な監督をもたらす。
多否定的な比較に対処するために、Planet-Luce の目的を採用し、トレーニング効率を向上させる重要なサンプリング戦略を導入する。
5つの多様なベンチマーク実験により、MISP-DPOは従来の手法よりもマルチモーダルアライメントを一貫して改善し、嗜好に基づく学習におけるセマンティック・アウェア、マルチネガティブ・サンプリングの有効性を検証した。
関連論文リスト
- Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。
CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。
実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-28T14:24:02Z) - Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。