論文の概要: Reinforcement Learning with Robust Rubric Rewards
- arxiv url: http://arxiv.org/abs/2605.30244v1
- Date: Thu, 28 May 2026 17:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.573963
- Title: Reinforcement Learning with Robust Rubric Rewards
- Title(参考訳): ロバストルーブリックリワードを用いた強化学習
- Authors: Ya-Qi Yu, Hao Wang, Fangyu Hong, Xiangyang Qu, Gaojie Wu, Qiaoyu Luo, Nuo Xu, Huixin Wang, Wuheng Xu, Yongxin Liao, Zihao Chen, Haonan Li, Ziming Li, Dezhi Peng, Minghui Liao, Jihao Wu, Haoyu Ren, Dandan Tu,
- Abstract要約: 本稿では,ロバスト・リワードによる強化学習(textRLR3$)を提案し,RLVRをタスクレベルの検証から基準レベルの検証まで拡張する。
$textRLR3$は2つの実行パスを通してインスタンス固有のルーリックをルーティングする。
textRLR3$はRLVRを一貫して上回り、ベースモデルよりも4.7ポイント向上し、公式のインストラクション・ツー・シンキングモデルギャップを超えた。
- 参考スコア(独自算出の注目度): 30.826907231502663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning with Verifiable Rewards (RLVR) is effective for deterministically checkable tasks, many vision-language tasks are partially verifiable, demanding multi-criteria supervision (e.g., perceptual details, reasoning steps, and constraints). Rubrics provide a natural interface for this fine-grained supervision, but their effectiveness depends on the execution accuracy during online RL. We propose Reinforcement Learning with Robust Rubric Rewards ($\text{RLR}^3$), extending RLVR from task-level verification to criterion-level verification. $\text{RLR}^3$ routes instance-specific rubrics through two execution paths: an LLM-as-an-extractor paired with a deterministic verifier, or an LLM-as-a-Judge for non-verifiable criteria. To ensure faithful scoring, $\text{RLR}^3$ introduce a minimal exposure strategy that masks ground truths from extractors and images from judges. Furthermore, $\text{RLR}^3$ employs hierarchical aggregation to prioritize essential criteria over additional criteria, and mitigates score saturation within rollout groups. Evaluated on Qwen3-VL-30B-A3B across 15 benchmarks, $\text{RLR}^3$ consistently outperforms RLVR, yielding a 4.7-point improvement over the base model and exceeding the official instruct-to-thinking model gap. Controlled audits confirm our deterministic verification and minimal exposure significantly reduce exploitable false positives.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は決定論的に検証可能なタスクに有効であるが、視覚言語タスクの多くは部分的に検証可能であり、複数の基準の監督を必要とする(知覚的詳細、推論ステップ、制約など)。
ルーブリックは、このきめ細かい監督のための自然なインターフェースを提供するが、その効果はオンラインRLの実行精度に依存する。
本稿では,RLVRをタスクレベルの検証から基準レベルの検証まで拡張したRobust Rubric Rewards($\text{RLR}^3$)による強化学習を提案する。
$\text{RLR}^3$は2つの実行パスを通してインスタンス固有のルーリックをルーティングする。
忠実なスコアを確保するために、$\text{RLR}^3$は、審査員の抽出者や画像から真実を隠蔽する最小限の露出戦略を導入する。
さらに、$\text{RLR}^3$は階層的アグリゲーションを使用して、追加基準よりも必須基準を優先し、ロールアウトグループ内のスコア飽和を緩和する。
Qwen3-VL-30B-A3Bを15のベンチマークで評価すると、$\text{RLR}^3$はRLVRを一貫して上回り、ベースモデルよりも4.7ポイント改善し、公式のインストラクション・ツー・モデルギャップを超えた。
制御された監査は、我々の決定論的検証を確認し、最小限の露出は、悪用可能な偽陽性を著しく減少させる。
関連論文リスト
- IRDS: Interpretable RLVR Data Selection via Verifier-Coupled Sparse Autoencoder Coverage [12.520216206687044]
本稿では、スパースオートエンコーダ(SAE)クラスタベースでRLVRトレーニングインスタンスを選択するIRDS(Inter-pretable RLVR Data Selection)を提案する。
3つの命令調整モデルと6つの数学推論ベンチマークを用いた実験により、IRDSは全体的な精度が最も高いことを示す。
論文 参考訳(メタデータ) (2026-05-27T09:58:05Z) - What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - ContextRL: Enhancing MLLM's Knowledge Discovery Efficiency with Context-Augmented RL [64.77036363086519]
本稿では,これらのボトルネックを克服するためにコンテキスト拡張を利用する新しいフレームワークContextRLを提案する。
提案手法は,プロセス検証のきめ細やかな検証によって偽陽性を除去し,完全な参照ソリューションをコンテキストとして提供する。
また,前述した全負の集団からの正解を「回収」する方針を導いて,報酬モデルが失敗に対する誤報を生成するマルチターンサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2026-02-26T04:55:57Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks [6.881699020319577]
大規模言語モデル(LLM)を微調整するための強化学習フレームワークであるダイレクト推論最適化(DRO)を提案する。
DROは新たな報酬信号、Reasoning Reflection Reward (R3)によって誘導される。
DROは、オープンエンドドメインと構造化ドメインの両方にわたって広く適用されながら、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-16T10:43:38Z) - R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [60.17074283370798]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。
我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文 参考訳(メタデータ) (2025-05-26T12:25:37Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - LLMSR@XLLM25: Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation [6.920352059545929]
本稿では,LLMSR@XLLM25構造推論タスクにおける3位獲得手法であるLess is Moreを提案する。
提案手法は,逆プロンプト誘導,GPT-4oによる検索拡張推論合成,二段階報酬誘導フィルタリングを用いたマルチエージェントフレームワークを活用する。
全てのモジュールはメタラマ-3-8B-インストラクトからLoRA+を統一した構成で微調整される。
論文 参考訳(メタデータ) (2025-04-23T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。