論文の概要: M3PO: Multimodal-Model-Guided Preference Optimization for Visual Instruction Following
- arxiv url: http://arxiv.org/abs/2508.12458v1
- Date: Sun, 17 Aug 2025 18:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.77966
- Title: M3PO: Multimodal-Model-Guided Preference Optimization for Visual Instruction Following
- Title(参考訳): M3PO:マルチモーダルモデルガイドによる視覚指導の最適化
- Authors: Ruirui Gao, Emily Johnson, Bowen Tan, Yanfei Qian,
- Abstract要約: LVLM(Large Vision-Language Models)は、複雑なマルチモーダル命令の潜在能力を秘めている。
M3POはLVLMの視覚的命令の処理能力を高めるために設計された,新しい,データ効率のよい手法である。
M3POは、LVLM生成候補の多様なプールから、最も「学習価値の高い」選好サンプルペアをインテリジェントに選択する。
- 参考スコア(独自算出の注目度): 4.119014132092875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) hold immense potential for complex multimodal instruction following, yet their development is often hindered by the high cost and inconsistency of human annotation required for effective fine-tuning and preference alignment. Traditional supervised fine-tuning (SFT) and existing preference optimization methods like RLHF and DPO frequently struggle to efficiently leverage the model's own generation space to identify highly informative "hard negative" samples. To address these challenges, we propose Multimodal-Model-Guided Preference Optimization (M3PO), a novel and data-efficient method designed to enhance LVLMs' capabilities in visual instruction following. M3PO intelligently selects the most "learning-valuable" preference sample pairs from a diverse pool of LVLM-generated candidates. This selection is driven by a sophisticated mechanism that integrates two crucial signals: a Multimodal Alignment Score (MAS) to assess external quality and the model's Self-Consistency / Confidence (log-probability) to gauge internal belief. These are combined into a novel M3P-Score, which specifically identifies preferred responses and challenging dispreferred responses that the model might confidently generate despite being incorrect. These high-quality preference pairs are then used for efficient Direct Preference Optimization (DPO) fine-tuning on base LVLMs like LLaVA-1.5 (7B/13B) using LoRA. Our extensive experiments demonstrate that M3PO consistently outperforms strong baselines, including SFT, simulated RLHF, vanilla DPO, and RM-DPO, across a comprehensive suite of multimodal instruction following benchmarks (MME-Bench, POPE, IFT, Human Pref. Score).
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、複雑なマルチモーダル命令の潜在能力を秘めているが、それらの開発は、効果的な微調整と優先順位調整に必要な人間のアノテーションの高コストと不整合によって妨げられることが多い。
従来の教師付き微調整(SFT)や、RLHFやDPOのような既存の選好最適化手法は、高情報性の高い「ハードネガティブ」サンプルを特定するために、モデル自身の生成空間を効率的に活用するのにしばしば苦労する。
これらの課題に対処するために,LVLMの視覚的指示における機能向上を目的とした,新しいデータ効率の手法であるMultimodal-Model-Guided Preference Optimization (M3PO)を提案する。
M3POは、LVLM生成候補の多様なプールから、最も「学習価値の高い」選好サンプルペアをインテリジェントに選択する。
この選択は、外部品質を評価するためのマルチモーダルアライメントスコア(MAS)と、内部の信念を測定するためのモデルの自己一貫性/信頼性(log-probability)という、2つの重要な信号を統合する洗練されたメカニズムによって駆動される。
これらは新しいM3Pスコアに結合され、特に好ましくない反応を識別し、不正確であるにもかかわらずモデルが自信を持って生成するであろう不適切な反応に挑戦する。
これらの高品質な選好ペアは、LoRAを用いたLLaVA-1.5 (7B/13B)のようなベースLVLM上でのDPO(Direct Preference Optimization)の微調整に使用される。
我々の広範な実験により、M3POは、SFT、シミュレートされたRLHF、バニラDPO、RM-DPOなど、マルチモーダル命令の総合的なスイート(MME-Bench、POPE、IFT、Human Pref.Score)において、強いベースラインを一貫して上回ります。
関連論文リスト
- DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations [22.299736215070343]
MLLM(Multimodal Large Language Models)は、容易に区別できる好みのペアを過度に強調する傾向がある。
本稿では,学習過程のバランスをとるための費用対効果の高いフレームワークであるDA-DPOを提案する。
論文 参考訳(メタデータ) (2026-01-02T09:41:54Z) - Beyond Single-Reward: Multi-Pair, Multi-Perspective Preference Optimization for Machine Translation [44.04325848740683]
M2PO: マルチペア, マルチパースペクティブ・パラメータ最適化について紹介する。
我々のフレームワークは、より堅牢な信号を生成するマルチパースペクティブ報酬エンジンを統合している。
挑戦的なWMT21-22ベンチマークでは、M2POは既存の選好最適化手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-10-15T11:30:49Z) - Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems [55.6590601898194]
大規模言語モデル(LLM)は例外的な機能を示しているが、複数のLLMから最も信頼性の高い応答を選択することは依然として困難である。
既存のアプローチは、しばしばコストのかかる外部検証器、人間の評価器、または単一のモデルから複数のサンプルを必要とする自己整合技術に依存している。
校正されたログ類似度スコアを用いて,複数のLLMから最適な応答を選択するための,原理的,斬新で,計算的に効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:19Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z) - MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。
Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。
実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-13T14:18:58Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。