論文の概要: Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria
- arxiv url: http://arxiv.org/abs/2605.08354v1
- Date: Fri, 08 May 2026 18:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.586403
- Title: Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria
- Title(参考訳): RewardとしてのAuto-Rubric: 暗黙の選好から明示的なマルチモーダル生成基準へ
- Authors: Juanxi Tian, Fengyuan Liu, Jiaming Han, Yilei Jiang, Yongliang Wu, Yesheng Liu, Haodong Li, Furong Xu, Wanhua Li,
- Abstract要約: Auto-Rubric as Reward (ARR)は、暗黙の重み付け最適化から明示的な基準ベースの分解まで、報酬モデリングを再構成するフレームワークである。
ARRはVLMの選好知識をプロンプト固有の勾配として外部化し、全体論的意図を独立に検証可能な品質次元に変換する。
ARR-RPOは、テキスト・ツー・イメージ生成と画像編集のベンチマークにおいて、ペアワイズ報酬モデルとVLM判事より優れている。
- 参考スコア(独自算出の注目度): 17.272139541614383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning multimodal generative models with human preferences demands reward signals that respect the compositional, multi-dimensional structure of human judgment. Prevailing RLHF approaches reduce this structure to scalar or pairwise labels, collapsing nuanced preferences into opaque parametric proxies and exposing vulnerabilities to reward hacking. While recent Rubrics-as-Reward (RaR) methods attempt to recover this structure through explicit criteria, generating rubrics that are simultaneously reliable, scalable, and data-efficient remains an open problem. We introduce Auto-Rubric as Reward (ARR), a framework that reframes reward modeling from implicit weight optimization to explicit, criteria-based decomposition. Before any pairwise comparison, ARR externalizes a VLM's internalized preference knowledge as prompt-specific rubrics, translating holistic intent into independently verifiable quality dimensions. This conversion of implicit preference structure into inspectable, interpretable constraints substantially suppresses evaluation biases including positional bias, enabling both zero-shot deployment and few-shot conditioning on minimal supervision. To extend these gains into generative training, we propose Rubric Policy Optimization (RPO), which distills ARR's structured multi-dimensional evaluation into a robust binary reward, replacing opaque scalar regression with rubric-conditioned preference decisions that stabilize policy gradients. On text-to-image generation and image editing benchmarks, ARR-RPO outperforms pairwise reward models and VLM judges, demonstrating that explicitly externalizing implicit preference knowledge into structured rubrics achieves more reliable, data-efficient multimodal alignment, revealing that the bottleneck is the absence of a factorized interface, not a deficit of knowledge.
- Abstract(参考訳): 人間の嗜好を反映した多モード生成モデルは、人間の判断の合成、多次元構造を尊重する報酬信号を要求する。
一般的なRLHFアプローチは、この構造をスカラーまたはペアワイズラベルに還元し、微妙な選好を不透明なパラメトリックプロキシに分解し、ハッキングに報いる脆弱性を公開する。
最近の Rubrics-as-Reward (RaR) 法は、この構造を明示的な基準で復元しようとするが、同時に信頼性があり、スケーラブルで、データ効率のよいルーリックを生成することは未解決の問題である。
暗黙の重み最適化から明示的な基準に基づく分解まで、報酬モデリングを再設計するフレームワークであるAuto-Rubric as Reward (ARR)を紹介した。
任意のペア比較の前に、ARRはVLMの内部化された選好知識をプロンプト固有のルーリックとして外部化し、全体論的意図を独立に検証可能な品質次元に変換する。
この暗黙的選好構造を検査可能な解釈可能な制約に変換することは、位置バイアスを含む評価バイアスを著しく抑制し、最小限の監視においてゼロショット展開と少数ショット条件の両方を可能にする。
本研究では,ARRの構造的多次元評価を頑健な二分報酬に蒸留し,不透明なスカラー回帰を政策勾配を安定化するルーブリック条件の優先決定に置き換える,Rubric Policy Optimization (RPO)を提案する。
テキスト・画像生成と画像編集のベンチマークにおいて、ARR-RPOはペアワイズ報酬モデルとVLMの判断を上回り、暗黙の選好知識を構造化されたルーリックに明示的に外部化することで、より信頼性が高く、データ効率のよいマルチモーダルアライメントを実現することを示した。
関連論文リスト
- RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time [51.256131853751754]
本研究では,多次元的批判を明示的に生成するために報酬モデルを教えることで,受動的評価器から能動的最適化ツールへ変換することを示す。
提案手法では, 嗜好データから高品質な論理を復元する原理的フレームワークであるpreference-Anchored Rationalization (PARROT) を導入する。
その結果、RationalRewards (8B) は、オープンソース報酬モデル間の最先端の好み予測を実現する。
論文 参考訳(メタデータ) (2026-04-13T15:38:09Z) - Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning [47.963236269307735]
リランカはRetrieval-Augmented Generationの検索結果の精錬において重要な役割を果たす。
現在のリグレードモデルは通常、ダウンストリーム生成プロセスから切り離された静的な人間アノテートされた関連ラベルに独立して最適化される。
本稿では,LLMの生成品質と直接整合する強化学習フレームワークであるReRanking Preference Optimization(RRPO)を紹介する。
論文 参考訳(メタデータ) (2026-04-02T14:19:47Z) - DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。
我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。
より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文 参考訳(メタデータ) (2026-02-17T15:31:32Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment [38.1645520104553]
OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
論文 参考訳(メタデータ) (2025-10-09T03:31:26Z) - A Novel Generative Model with Causality Constraint for Mitigating Biases in Recommender Systems [20.672668625179526]
遅延共起バイアスは、ユーザのフィードバックとアイテムの露出の間の真の因果関係を曖昧にする可能性がある。
本稿では,Recommender Systemsにおける表現学習のための遅延因果制約(Latent Causality Constraints)と呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。