論文の概要: DeltaRubric: Generative Multimodal Reward Modeling via Joint Planning and Verification
- arxiv url: http://arxiv.org/abs/2605.09269v1
- Date: Sun, 10 May 2026 02:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.153352
- Title: DeltaRubric: Generative Multimodal Reward Modeling via Joint Planning and Verification
- Title(参考訳): DeltaRubric: 共同計画と検証による生成的マルチモーダルリワードモデリング
- Authors: Rui Liu, Dian Yu, Zhenwen Liang, Yucheng Shi, Tong Zheng, Runpeng Dai, Haitao Mi, Pratap Tokekar, Leoweiliang,
- Abstract要約: 一つのMLLM内でのプラン・アンド・エグゼキュートプロセスとしてマルチモーダルな選好評価を再構成するアプローチであるDeltaRubricを導入する。
DeltaRubricは2つのステップで動作する。まずは$textitDisagreement Planner$として動作し、中立でインスタンス固有のチェックリストを生成する。
我々はDeltaRubricをマルチロール強化学習問題として定式化し、計画と検証機能を共同で最適化する。
- 参考スコア(独自算出の注目度): 38.65432183778467
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Aligning Multimodal Large Language Models (MLLMs) requires reliable reward models, yet existing single-step evaluators can suffer from lazy judging, exploiting language priors over fine-grained visual verification. While rubric-based evaluation mitigates these biases in text-only settings, extending it to multimodal tasks is bottlenecked by the complexity of visual reasoning. The critical differences between responses often depend on instance-specific visual details. Robust evaluation requires dynamically synthesizing rubrics that isolate spatial and factual discrepancies. To address this, we introduce $\textbf{DeltaRubric}$, an approach that reformulates multimodal preference evaluation as a plan-and-execute process within a single MLLM. DeltaRubric operates in two steps: acting first as a $\textit{Disagreement Planner}$, the model generates a neutral, instance-specific verification checklist. Transitioning into a $\textit{Checklist Verifier}$, it executes these self-generated checks against the image and question to produce the final grounded judgment. We formulate DeltaRubric as a multi-role reinforcement learning problem, jointly optimizing planning and verification capabilities. Validated on Qwen3-VL 4B and 8B Instruct models, DeltaRubric achieves solid empirical gains. For instance, On VL-RewardBench, it improves base model overall accuracy by $\textbf{+22.6}$ (4B) and $\textbf{+18.8}$ (8B) points, largely outperforming standard no-rubric baselines. The results demonstrate that decomposing evaluation into structured, verifiable steps leads to more reliable and generalizable multimodal reward modeling.
- Abstract(参考訳): MLLM (Aligning Multimodal Large Language Models) は、信頼性の高い報酬モデルを必要とするが、既存のシングルステップ評価器は遅延判定に悩まされ、きめ細かな視覚的検証よりも言語先行を活用できる。
ルーブリックに基づく評価は、これらのバイアスをテキストのみの設定で軽減するが、それをマルチモーダルタスクに拡張することは、視覚的推論の複雑さによってボトルネックとなる。
応答間の重要な違いは、しばしばインスタンス固有の視覚的詳細に依存する。
ロバスト評価は、空間的および事実的な相違を分離する動的に合成するルーリックを必要とする。
これを解決するために,1つのMLLM内のプラン・アンド・実行プロセスとしてマルチモーダルな選好評価を再構成するアプローチである$\textbf{DeltaRubric}$を導入する。
DeltaRubricは、まず$\textit{Disagreement Planner}$として振舞うと、中立なインスタンス固有の検証チェックリストを生成する。
$\textit{Checklist Verifier}$に遷移すると、画像に対するこれらの自己生成チェックを実行し、最終的な根拠付き判断を生成する。
我々はDeltaRubricをマルチロール強化学習問題として定式化し、計画と検証機能を共同で最適化する。
Qwen3-VL 4Bと8Bのインストラクタモデルで検証されたDeltaRubricは、しっかりとした経験的なゲインを達成する。
例えば、VL-RewardBench では、ベースモデル全体の精度を $\textbf{+22.6}$ (4B) と $\textbf{+18.8}$ (8B) で改善し、標準の非ルブリックなベースラインを大きく上回る。
その結果, 評価を構造化し, 検証可能なステップに分解することで, より信頼性が高く, 一般化可能なマルチモーダル報酬モデルが得られた。
関連論文リスト
- Beyond Output Critique: Self-Correction via Task Distillation [36.44752912823049]
本稿では,ソリューションの洗練に先立ってタスク抽象化の中間段階を導入するフレームワークを提案する。
入力と初期応答が与えられた後、モデルはまず、主要な変数、制約、問題構造をキャプチャする構造化テンプレートにタスクを蒸留する。
この抽象化により、解のインスタンス化が導かれ、タスクのより明確な理解において、その後の応答がグラウンド化される。
論文 参考訳(メタデータ) (2026-01-31T19:15:41Z) - Merge and Guide: Unifying Model Merging and Guided Decoding for Controllable Multi-Objective Generation [49.98025799046136]
Merge-And-GuidEは、ガイド付きデコーディングにモデルマージを利用する2段階のフレームワークである。
ステージ1では、MAGEはガイダンスとベースモデルの互換性の問題を解決する。
ステージ2では、明示的で暗黙的な値モデルを統一的なガイダンスプロキシにマージします。
論文 参考訳(メタデータ) (2025-10-04T11:10:07Z) - Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards [13.663839318595505]
私たちは、検証可能で検証不可能な報酬を持つ領域にまたがるモデルを同時に整合させるのに何が必要かに答えようとしています。
本稿では,プロセス報酬モデル(PRM)のトレーニングを,検証可能な設定と検証できない設定の両方にわたって標準化する統合フレームワークを提案する。
数学推論、値アライメント、マルチターン対話による実験は、我々のフレームワークが複数の目的に対して同時に性能を向上させることを示している。
論文 参考訳(メタデータ) (2025-10-01T17:54:15Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。
SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文 参考訳(メタデータ) (2025-02-28T19:27:29Z) - OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。
誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。