論文の概要: GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2606.04889v1
- Date: Wed, 03 Jun 2026 13:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.795687
- Title: GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards
- Title(参考訳): GRAIL: 検証されたリワードによる強化学習のためのグラディエント・リウェイト・アドバンテージ
- Authors: Tej Deep Pala, Vernon Toh, Soujanya Poria,
- Abstract要約: グラディエント・リウェイトド・アドバンテージ(GRAIL)は、固有のトークン・ワイド・アドバンテージ・リウェイト法である。
GRAILは勾配活性塩度を用いて、最終回答により局所的に敏感なトークンをより重み付けする。
GRAILの精度は平均3.60%向上し、Pass@3では3.05%向上した。
- 参考スコア(独自算出の注目度): 36.68876802708284
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning with verifiable rewards (e.g. GRPO) is now a common way to improve mathematical reasoning in Large Language Models (LLMs). However, current methods usually broadcast one sequence-level advantage to all tokens, or use costly process reward models (PRMs) for step-level supervision. Uniform advantage distribution assumes that all tokens contribute equally to the final reward. This dilutes the gradient signal, since flawed reasoning steps and filler words are updated as strongly as valid logical inferences. To address this, we introduce Gradient-Reweighted Advantage (GRAIL), an intrinsic token-wise advantage reweighting method. GRAIL uses gradient-activation saliency to place more weight on tokens that are more locally sensitive to the final answer. Evaluations across five models from the Qwen3, R1-distilled and OctoThinker families show that GRAIL consistently outperforms GRPO. GRAIL achieved an average improvement of 3.60% in accuracy and 3.05% in Pass@3, demonstrating that fine-grained reasoning alignment can be achieved without process-level supervision.
- Abstract(参考訳): 検証可能な報酬(例えばGRPO)による強化学習は、Large Language Models (LLMs)における数学的推論を改善する一般的な方法である。
しかしながら、現在の手法は通常、すべてのトークンに対して1つのシーケンスレベルの利点をブロードキャストするか、ステップレベルの監視にコストのかかるプロセス報酬モデル(PRM)を使用する。
均一な有利分布は、全てのトークンが最終報酬に等しく寄与すると仮定する。
これは、欠陥のある推論ステップとフィラーワードが、論理的推論と同じくらい強く更新されるため、勾配信号を希釈する。
これを解決するために,本発明のトークン・ワイド・アドバンテージ法であるグラディエント・リウェイト・アドバンテージ(GRAIL)を導入する。
GRAILは勾配活性塩度を用いて、最終回答により局所的に敏感なトークンをより重み付けする。
Qwen3、R1-distilled、OctoThinkerファミリーの5つのモデルによる評価は、GRAILがGRPOを一貫して上回っていることを示している。
GRAILの精度は平均3.60%向上し、Pass@3では3.05%向上した。
関連論文リスト
- VeriGate: Verifier-Gated Step-Level Supervision for GRPO [51.26100506256885]
グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
論文 参考訳(メタデータ) (2026-05-28T18:20:32Z) - Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - EntRGi: Entropy Aware Reward Guidance for Diffusion Language Models [42.41157160976886]
本研究では,離散拡散言語モデルに対する報酬指導について検討する。
既存のアプローチでは、離散トークンを連続的な緩和に置き換えるか、ストレートスルー推定器のようなテクニックを採用する。
本稿では,報酬モデルから勾配を動的に調節するエントロピー対応リワードガイダンスについて紹介する。
論文 参考訳(メタデータ) (2026-02-04T19:37:14Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。