論文の概要: Open Rubric System: Scaling Reinforcement Learning with Pairwise Adaptive Rubric
- arxiv url: http://arxiv.org/abs/2602.14069v1
- Date: Sun, 15 Feb 2026 09:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.6371
- Title: Open Rubric System: Scaling Reinforcement Learning with Pairwise Adaptive Rubric
- Title(参考訳): Open Rubric System: Pairwise Adaptive Rubricによる強化学習のスケールアップ
- Authors: Ruipeng Jia, Yunyi Yang, Yuxin Wu, Yongbo Gai, Siyuan Tao, Mengyu Zhou, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: スカラー報酬モデルでは、多次元の人間の嗜好を1つの不透明スコアに圧縮する。
プラグ・アンド・プレイのルーブリックベースのLLM-as-a-JudgeフレームワークであるOpen System(OpenRS)を紹介する。
OpenRSは明示的なメタルブリックを使用します -- ガバナンスがどのようにインスタンス化され、重み付けされ、強制されるかという、コンスティチューションのような仕様です。
- 参考スコア(独自算出の注目度): 10.220923271217632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scalar reward models compress multi-dimensional human preferences into a single opaque score, creating an information bottleneck that often leads to brittleness and reward hacking in open-ended alignment. We argue that robust alignment for non-verifiable tasks is fundamentally a principle generalization problem: reward should not be a learned function internalized into a judge, but an explicit reasoning process executed under inspectable principles. To operationalize this view, we present the Open Rubric System (OpenRS), a plug-and-play, rubrics-based LLM-as-a-Judge framework built around Pairwise Adaptive Meta-Rubrics (PAMR) and lightweight Pointwise Verifiable Rubrics (PVRs), which provide both hard-constraint guardrails and verifiable reward components when ground-truth or programmatic checks are available. OpenRS uses an explicit meta-rubric -- a constitution-like specification that governs how rubrics are instantiated, weighted, and enforced -- and instantiates adaptive rubrics on the fly by conditioning on the semantic differences between two candidate responses. It then performs criterion-wise pairwise comparisons and aggregates criterion-level preferences externally, avoiding pointwise weighted scalarization while improving discriminability in open-ended settings. To keep principles consistent yet editable across various domains, we introduce a two-level meta-rubric refinement pipeline (automated evolutionary refinement for general principles and a reproducible human-in-the-loop procedure for domain principles), complemented with pointwise verifiable rubrics that act as both guardrails against degenerate behaviors and a source of verifiable reward for objective sub-tasks. Finally, we instantiate OpenRS as reward supervision in pairwise RL training.
- Abstract(参考訳): スカラー報酬モデルは、多次元の人間の嗜好を1つの不透明なスコアに圧縮し、しばしばオープンエンドアライメントにおける脆さと報酬のハッキングにつながる情報のボトルネックを生成する。
非検証可能なタスクに対するロバストなアライメントは原則的一般化問題であり、報酬は審査員に内部化される学習関数であってはならないが、検査可能な原則の下で実行される明示的な推論プロセスである。
提案するOpen Rubric System(OpenRS)は,Pairwise Adaptive Meta-Rubrics(PAMR)と軽量なPointwise Verifiable Rubrics(PVR)を中心に構築された,プラグアンドプレイでルーリックベースのLCM-as-a-Judgeフレームワークである。
OpenRSは明示的なメタルブリック-ルブリック-ルブリックのインスタンス化、重み付け、強制の方法を規定する構成的な仕様-を使っており、二つの候補の応答のセマンティックな違いを条件にすることで、適応ルブリックをオンザフライでインスタンス化する。
その後、クレーター単位でのペアワイズ比較を行い、クレーターレベルの嗜好を外部に集約し、ポイントワイドなスカラー化を回避し、オープンエンド環境での識別性を向上させる。
諸領域にまたがって整合性を維持しつつ編集可能であるために,2段階のメタルブリック改良パイプライン(一般原理の進化的洗練と,ドメイン原理の再現可能なヒューマン・イン・ザ・ループ・プロシージャ)を導入し,デジェネレーションに対するガードレールとして機能し,目的のサブタスクに対する検証可能な報酬源を兼ね備えた。
最後に、ペアワイズRLトレーニングにおける報酬管理としてOpenRSをインスタンス化する。
関連論文リスト
- JAF: Judge Agent Forest [8.150475950851359]
JAF:ジャッジエージェントフォレスト(JAF: Judge Agent Forest)は、判定エージェントがクエリ応答ペアのコホートを越えて共同推論を行うフレームワークである。
セマンティックな埋め込みを組み込んで情報的バイナリコードを学ぶフレキシブルな局所性に敏感なハッシュアルゴリズムを開発した。
我々は,大規模クラウド環境におけるクラウド構成ミストリアージの要求タスクに関する実証的研究により,JAFを検証した。
論文 参考訳(メタデータ) (2026-01-29T19:42:42Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards [14.535325886547112]
RAGシステムは、ユーザがセマンティックに等価なクエリ間で出力が一貫性があることを期待する、ハイテイクなドメインにますますデプロイされている。
既存のシステムは、レトリバーとジェネレータの両方のばらつきにより、しばしば重大な矛盾を示す。
本稿では,RAGの一貫性をレトリバーレベル,ジェネレータレベル,エンド・ツー・エンドのコンポーネントに分解する基本的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T23:14:13Z) - QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA [46.65999744568314]
本稿では,モノリシック報酬を解釈可能な原理固有評価に分解するQA-LIGNを紹介する。
ランマ-3.1-8B-インストラクションの適用により、QA-LIGNは攻撃成功率を最大68.7%まで下げる一方で、偽拒絶率0.67%を維持している。
論文 参考訳(メタデータ) (2025-06-09T18:24:57Z) - Feedback Guidance of Diffusion Models [14.162420300295365]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation [64.7982176398485]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の幻覚化問題を緩和する効果を実証している。
本稿では,RAGシステム内での多様な知識嗜好の整合を図った汎用フレームワークであるDPA-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-26T18:26:53Z) - Adaptive Regularization of Representation Rank as an Implicit Constraint of Bellman Equation [40.88431931273978]
表現ランクの適応制御の指針となる原理を見いだす。
我々は,新しい正規化器,すなわち BEER (Bellman Equation-based Automatic rank Regularizer) を提案する。
BEERは適応的に表現ランクを調整し、DRLエージェントの性能を向上させる。
論文 参考訳(メタデータ) (2024-04-19T10:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。