論文の概要: RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation
- arxiv url: http://arxiv.org/abs/2601.08430v1
- Date: Tue, 13 Jan 2026 10:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.160893
- Title: RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation
- Title(参考訳): RubricHub: 粗大な自動生成による包括的で差別性の高いルーブリックデータセット
- Authors: Sunzhu Li, Jiale Zhao, Miteto Wei, Huimin Ren, Yang Zhou, Jingwen Yang, Shunyu Liu, Kaike Zhang, Wei Chen,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、数学のような推論集約的な分野において大きな進歩をもたらした。
既存の手法はスケーラビリティのボトルネックと粗い基準に悩まされ、監督天井効果をもたらす。
本稿では,包括的で離散性の高い基準を自動生成する粗大度生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.664443383764448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has driven substantial progress in reasoning-intensive domains like mathematics. However, optimizing open-ended generation remains challenging due to the lack of ground truth. While rubric-based evaluation offers a structured proxy for verification, existing methods suffer from scalability bottlenecks and coarse criteria, resulting in a supervision ceiling effect. To address this, we propose an automated Coarse-to-Fine Rubric Generation framework. By synergizing principle-guided synthesis, multi-model aggregation, and difficulty evolution, our approach produces comprehensive and highly discriminative criteria capable of capturing the subtle nuances. Based on this framework, we introduce RubricHub, a large-scale ($\sim$110k) and multi-domain dataset. We validate its utility through a two-stage post-training pipeline comprising Rubric-based Rejection Sampling Fine-Tuning (RuFT) and Reinforcement Learning (RuRL). Experimental results demonstrate that RubricHub unlocks significant performance gains: our post-trained Qwen3-14B achieves state-of-the-art (SOTA) results on HealthBench (69.3), surpassing proprietary frontier models such as GPT-5. The code and data will be released soon.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、数学のような推論集約的な分野において大きな進歩をもたらした。
しかし、根底的な真実の欠如により、オープンエンド世代を最適化することは依然として困難である。
ルーブリックに基づく評価は検証のための構造化されたプロキシを提供するが、既存の手法はスケーラビリティのボトルネックと粗い基準に悩まされ、監督的な天井効果をもたらす。
そこで本研究では,自動粗大化生成フレームワークを提案する。
原理誘導合成,多モデルアグリゲーション,難易度進化を相乗化することにより,微妙なニュアンスを捉えることのできる包括的かつ高度に差別的な基準を導出する。
このフレームワークに基づいて、大規模な$\sim$110k)とマルチドメインデータセットであるRubricHubを紹介します。
本稿では,Rubric-based Rejection Smpling Fine-Tuning (RuFT) とReinforcement Learning (RuRL) の2段階後学習パイプラインを用いて,その実用性を検証する。
我々のトレーニング後のQwen3-14BはHealthBench (69.3)のSOTA(State-of-the-art)の結果を達成し、GPT-5のような独自のフロンティアモデルを上回った。
コードとデータはまもなくリリースされる。
関連論文リスト
- Silence the Judge: Reinforcement Learning with Self-Verifier via Latent Geometric Clustering [28.35101062722637]
グループ相対政策最適化(GRPO)は大規模言語モデル(LLM)の推論性能を大幅に向上させる
我々は、潜在空間幾何学から直接本質的な報酬を導出するフレームワークであるLatent-GRPOを提案する。
本手法は,ベースラインに比べて2倍以上のトレーニング高速化を実現しつつ,モデル性能を維持していることを示す。
論文 参考訳(メタデータ) (2026-01-13T10:55:08Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - Robust and Label-Efficient Deep Waste Detection [29.019461511410515]
効率的な廃棄物のソートは持続可能なリサイクルには不可欠だが、この領域でのAI研究は商用システムに遅れを取っている。
本研究では,強力なベースラインを確立し,アンサンブルに基づく半教師付き学習フレームワークを導入することにより,AI駆動型廃棄物検出を推し進める。
論文 参考訳(メタデータ) (2025-08-26T08:34:04Z) - VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning [32.974199255760944]
本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。
スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。
RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-08-25T20:20:44Z) - Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts [25.205293698698867]
我々はNested-ReFTを導入し、ターゲットモデルのサブセットがトレーニング中に非政治的な完了を生成する行動モデルとして機能する。
我々の理論的分析は、Nested-ReFTが制御された分散を伴う非バイアス勾配推定値を得ることを示している。
我々の経験的分析は、複数の数学推論ベンチマークとモデルサイズでトークン/秒として測定された計算効率の改善を実証している。
論文 参考訳(メタデータ) (2025-08-13T18:37:46Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。