論文の概要: Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing
- arxiv url: http://arxiv.org/abs/2604.07747v1
- Date: Thu, 09 Apr 2026 03:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.662094
- Title: Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing
- Title(参考訳): 分布調整ヒント合成と後方ヒント焼鈍による数学RLVRの緩和
- Authors: Pei-Xi Xie, Che-Yu Lin, Cheng-Lin Yang,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、難解な数学問題に対する解のカバレッジを狭めながら、推論精度を低コストで向上させることができる。
既存のヒントベースのアプローチは、挑戦的な質問をトレーニング可能にするが、2つの問題が未解決のまま残されている。
- 参考スコア(独自算出の注目度): 2.354398950453436
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) can improve low-$k$ reasoning accuracy while narrowing solution coverage on challenging math questions, and pass@1 gains do not necessarily translate into better large-$k$ performance. Existing hint-based approaches can make challenging questions trainable, but they leave two issues underexplored: teacher-student distribution mismatch and the need to reduce hint exposure to match no-hint evaluation. We address these issues through two components. Distribution-Aligned Hint Synthesis (DAHS) constructs verified teacher hints conditioned on student-style responses. Backward Hint Annealing (BHA) anneals hint exposure across difficulty buckets and uses per-question hint dropout to preserve no-hint updates throughout RL training. We evaluate the method in math RLVR under the DAPO training framework across AIME24, AIME25, and AIME26 using $\texttt{Qwen3-1.7B-Base}$ and $\texttt{Llama-3.2-1B-Instruct}$. On $\texttt{Qwen3-1.7B-Base}$, our method improves both pass@1 and pass@2048 relative to DAPO across the three AIME benchmarks. On $\texttt{Llama-3.2-1B-Instruct}$, the gains are concentrated in the large-$k$ regime. These results suggest that, in math RLVR, hint scaffolding is effective when it restores learnable updates on challenging questions early in training and is then gradually removed before no-hint evaluation.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、難解な数学問題に対するソリューションカバレッジを狭めつつ、低い$kの推論精度を向上させることができる。
既存のヒントベースのアプローチは、難解な質問をトレーニング可能にするが、教師の学生分布ミスマッチと、ヒントの露出を減らすことの2つの問題が未解決のまま残されている。
これらの問題は2つのコンポーネントを通して解決する。
分散適応ヒント合成 (DAHS) は, 学生スタイルの応答に適応した教師のヒントを構成する。
後方のHint Annealing(BHA)は、難易度バケット全体へのヒントの露出を緩和し、クエリ毎のヒントドロップアウトを使用して、RLトレーニング全体を通じて隠れた更新を保存する。
AIME24, AIME25, AIME26のDAPOトレーニングフレームワーク上で, $\texttt{Qwen3-1.7B-Base}$および$\texttt{Llama-3.2-1B-Instruct}$を用いて数学RLVRの評価を行った。
for $\texttt{Qwen3-1.7B-Base}$では、3つのAIMEベンチマークでDAPOと比較してpass@1とpass@2048の両方が改善される。
$\texttt{Llama-3.2-1B-Instruct}$では、ゲインは大きな$kのレギュレーションに集中する。
これらの結果は,数学のRLVRにおいて,学習段階の課題に対する学習可能な更新を復元し,非隠れ評価の前に徐々に除去すると,ヒントスキャフォールディングが有効であることが示唆された。
関連論文リスト
- $\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving [75.29519604607111]
検証可能な報奨(RLVR)による強化学習は、大規模言語モデル(LLM)の推論性能を高めることを約束している。
チェーン・オブ・シークレット(CoT)の初期方向や品質が最適以下である場合、モデルが正しい答えに到達できないことがよく示される。
再解決による強化学習 (Reinforcement Learning with Re-solving, Re$2$) を導入し, LLM が非生産的推論経路を柔軟に放棄し,必要ならば解法を再開することを学ぶ。
論文 参考訳(メタデータ) (2026-03-07T13:17:46Z) - R^3: Replay, Reflection, and Ranking Rewards for LLM Reinforcement Learning [32.16683059021539]
大規模推論モデル(LRM)は、構造化推論によって多様で複雑な問題を解くことを目的としている。
グループベースの政策最適化手法の最近の進歩は、プロセスレベルのアノテーションに頼らず、安定した優位性推定を可能にすることを約束している。
本報告では,(1)群内優位性を維持するEmphcross-context underlinetextbfReplay戦略,(2)emphin-context self-underlinetextbfReflectionメカニズムの3つの方向に沿った強化学習機構を提案する。
論文 参考訳(メタデータ) (2026-01-27T13:55:34Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [60.17074283370798]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。
我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文 参考訳(メタデータ) (2025-05-26T12:25:37Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image
Retrieval [51.42470171051007]
本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。
DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。
モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
論文 参考訳(メタデータ) (2021-12-15T08:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。