論文の概要: Alternating Reinforcement Learning with Contextual Rubric Rewards
- arxiv url: http://arxiv.org/abs/2603.15646v1
- Date: Wed, 04 Mar 2026 04:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.337409
- Title: Alternating Reinforcement Learning with Contextual Rubric Rewards
- Title(参考訳): 文脈的ルーブリック・リワードを用いた交互強化学習
- Authors: Guangchen Lan,
- Abstract要約: Reinforcement Learning with Rewards (RLRR)は、従来の強化学習を人間のフィードバックから拡張するフレームワークである。
RLRRの既存のアプローチは、固定重み付きスカラー報酬に線形に圧縮されたベクトル報酬に限られる。
本研究は,報酬アグリゲーションの限界を克服するために,報酬付き強化学習(ARL-RR)を提案する。
- 参考スコア(独自算出の注目度): 2.1172256884504588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Rubric Rewards (RLRR) is a framework that extends conventional reinforcement learning from human feedback (RLHF) and verifiable rewards (RLVR) by replacing scalar preference signals with structured, multi-dimensional, contextual rubric-based evaluations. However, existing approaches in RLRR are limited to linearly compressing vector rewards into a scalar reward with a fixed weightings, which is sensitive to artificial score design and fails to capture correlations among reward dimensions. To overcome the limitations of reward aggregation, this work proposes Alternating Reinforcement Learning with Rubric Rewards (ARL-RR), a framework that eliminates the need for a fixed scalarization by optimizing one semantic rubric meta-class at a time. Theoretically, we show that reward aggregation induces a variance contraction effect, which helps explain the performance gains. We further introduce a lightweight, search-based adaptation procedure that selects the next meta-class dynamically based on task performance, enabling the policy to emphasize critical objectives and thereby improve the model performance. Empirically, our experiments on the HealthBench dataset with experts annotations demonstrate that ARL-RR uniformly outperforms scalarized methods in both model performance and training efficiency across different model scales (1.7B, 4B, 8B, and 14B).
- Abstract(参考訳): Reinforcement Learning with Rubric Rewards (RLRR) は、スカラー選好信号を構造化された多次元の文脈的ルーリックに基づく評価に置き換えることで、人間のフィードバック(RLHF)と検証可能な報奨(RLVR)から従来の強化学習を拡張するフレームワークである。
しかし、RLRRの既存のアプローチは、固定重み付けでベクトル報酬をスカラー報酬に線形に圧縮することに制限されており、これは人工的なスコア設計に敏感であり、報酬次元間の相関を捉えることができない。
報酬アグリゲーションの限界を克服するため、本研究では、1つのセマンティックルーブルメタクラスを最適化することで、固定スカラライズの必要性を解消するフレームワークである、ラブリリックリワードを用いた代替強化学習(ARL-RR)を提案する。
理論的には、報酬の集約は分散収縮効果を誘導し、性能向上を説明するのに役立ちます。
さらに、タスク性能に基づいて次のメタクラスを動的に選択する軽量な検索ベースの適応手順を導入し、ポリシーが重要な目標を強調することを可能にし、モデル性能を向上させる。
専門家のアノテーションを用いたHealthBenchデータセットの実験では、ARL-RRは、異なるモデルスケール(1.7B、4B、8B、14B)で、モデルパフォーマンスとトレーニング効率の両方において、スカラー化メソッドを均一に上回っていることが実証された。
関連論文リスト
- Adaptive Correlation-Weighted Intrinsic Rewards for Reinforcement Learning [0.0]
ACWIは適応型固有報酬スケーリングフレームワークである。
それは、スパース報酬強化学習における探索を改善するために、本質的な報酬と外生的な報酬のバランスをとる。
我々は,MiniGrid のスパース報酬環境における ACWI の評価を行った。
論文 参考訳(メタデータ) (2026-02-27T15:16:53Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [9.917318870162365]
Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。
ラグビーは近年、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ未定である。
本稿では,RLVRを検証可能な領域を超えて,ルーブリックフィードバックを用いて拡張するオンライン強化学習手法であるRaRを紹介する。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [51.10604883057508]
DR-IRL(逆強化学習によるリワードの動的調整)を提案する。
まず、IRLを介して7つの有害なカテゴリをカバーするバランスの取れた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。
次に,テキストエンコーダのコサイン類似性によるデータレベルの硬さ,報酬ギャップによるモデルレベルの応答性など,タスク難易度による報酬を導入することにより,グループ相対政策最適化(GRPO)を強化する。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。