論文の概要: Visual Preference Optimization with Rubric Rewards
- arxiv url: http://arxiv.org/abs/2604.13029v1
- Date: Tue, 14 Apr 2026 17:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.606547
- Title: Visual Preference Optimization with Rubric Rewards
- Title(参考訳): Rubric Rewardsによる視覚的嗜好の最適化
- Authors: Ya-Qi Yu, Fangyu Hong, Xiangyang Qu, Hao Wang, Gaojie Wu, Qiaoyu Luo, Nuo Xu, Huixin Wang, Wuheng Xu, Yongxin Liao, Zihao Chen, Haonan Li, Ziming Li, Dezhi Peng, Minghui Liao, Jihao Wu, Haoyu Ren, Dandan Tu,
- Abstract要約: 本稿では,インスタンス固有のルーリックをベースとした優先最適化フレームワークであるrDPOを提案する。
公開報酬モデルベンチマークでは、ルーリックベースのプロンプトにより30B-A3Bの判定が大幅に改善され、GPT-5.4に近づいた。
包括的なベンチマークでスケーラビリティを評価する場合、rDPOは61.01に達し、スタイル制約付きベースライン(52.36)を著しく上回り、59.48ベースモデルを上回っている。
- 参考スコア(独自算出の注目度): 30.826907231502663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness of Direct Preference Optimization (DPO) depends on preference data that reflect the quality differences that matter in multimodal tasks. Existing pipelines often rely on off-policy perturbations or coarse outcome-based signals, which are not well suited to fine-grained visual reasoning. We propose rDPO, a preference optimization framework based on instance-specific rubrics. For each image-instruction pair, we create a checklist-style rubric of essential and additional criteria to score responses from any possible policies. The instruction-rubric pool is built offline and reused during the construction of on-policy data. On public reward modeling benchmarks, rubric-based prompting massively improves a 30B-A3B judge and brings it close to GPT-5.4. On public downstream benchmarks, rubric-based filtering raises the macro average to 82.69, whereas outcome-based filtering drops it to 75.82 from 81.14. When evaluating scalability on a comprehensive benchmark, rDPO achieves 61.01, markedly outperforming the style-constrained baseline (52.36) and surpassing the 59.48 base model. Together, these results show that visual preference optimization benefits from combining on-policy data construction with instance-specific criterion-level feedback.
- Abstract(参考訳): 直接選好最適化(DPO)の有効性は、マルチモーダルタスクにおいて重要な品質差を反映した選好データに依存する。
既存のパイプラインは、しばしば政治外の摂動や粗い結果に基づく信号に頼っているが、それはきめ細かい視覚的推論には適していない。
本稿では,インスタンス固有のルーリックに基づく優先最適化フレームワークであるrDPOを提案する。
各イメージインストラクションペアに対して、本質的なチェックリストスタイルのルーリックと、可能なポリシから応答を評価するための追加の基準を作成します。
インストラクション・ルブリック・プールはオフラインで構築され、オン・ポリティクス・データの構築中に再利用される。
公開報酬モデルベンチマークでは、ルーリックベースのプロンプトにより30B-A3Bの判定が大幅に改善され、GPT-5.4に近づいた。
パブリックダウンストリームのベンチマークでは、ルーリックベースのフィルタリングはマクロ平均82.69に上昇し、結果ベースのフィルタリングは81.14から75.82に低下する。
包括的なベンチマークでスケーラビリティを評価する場合、rDPOは61.01に達し、スタイル制約付きベースライン(52.36)を著しく上回り、59.48ベースモデルを上回っている。
これらの結果から, オンラインデータ構築とインスタンス固有の基準レベルのフィードバックを組み合わせることにより, 視覚的嗜好最適化の利点が示された。
関連論文リスト
- Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。
選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。
RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文 参考訳(メタデータ) (2025-05-28T09:44:27Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment [57.03947082589616]
大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使用してアライメントされる。
これについて検討し、基礎となる応答が対照的な場合、嗜好データがより良い学習信号を与えることを示した。
我々は、よりコントラスト的な選好ペアを生み出すデータ生成手法である、AI Revisions (CLAIR) からのコントラスト学習を紹介する。
我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
論文 参考訳(メタデータ) (2024-08-12T16:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。