論文の概要: KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
- arxiv url: http://arxiv.org/abs/2604.12627v1
- Date: Tue, 14 Apr 2026 11:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.420443
- Title: KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
- Title(参考訳): KnowRL:最小限の知識指導による強化学習によるLLM推論の促進
- Authors: Linhao Yu, Tianmeng Yang, Siyu Ding, Renren Jin, Naibin Gu, Xiangzhao Hao, Shuaiyi Nie, Deyi Xiong, Weichong Yin, Yu Sun, Hua Wu,
- Abstract要約: 我々は、ヒントデザインを最小限のガイダンス問題として扱うRLトレーニングフレームワークであるtextbfKnowRL(Knowledge-Guided Reinforcement Learning)を提案する。
KnowRLは、ガイダンスを原子知識ポイント(KP)に分解し、制約付きサブセットサーチ(CSS)を使用して、訓練用にコンパクトで対話対応のサブセットを構築する。
1.5Bスケールの8つの推論ベンチマークで、KnowRL-Nemotron-1.5Bは強いRLを一貫して上回り、ベースラインを示唆している。
- 参考スコア(独自算出の注目度): 50.70511573232489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RLVR improves reasoning in large language models, but its effectiveness is often limited by severe reward sparsity on hard problems. Recent hint-based RL methods mitigate sparsity by injecting partial solutions or abstract templates, yet they typically scale guidance by adding more tokens, which introduce redundancy, inconsistency, and extra training overhead. We propose \textbf{KnowRL} (Knowledge-Guided Reinforcement Learning), an RL training framework that treats hint design as a minimal-sufficient guidance problem. During RL training, KnowRL decomposes guidance into atomic knowledge points (KPs) and uses Constrained Subset Search (CSS) to construct compact, interaction-aware subsets for training. We further identify a pruning interaction paradox -- removing one KP may help while removing multiple such KPs can hurt -- and explicitly optimize for robust subset curation under this dependency structure. We train KnowRL-Nemotron-1.5B from OpenMath-Nemotron-1.5B. Across eight reasoning benchmarks at the 1.5B scale, KnowRL-Nemotron-1.5B consistently outperforms strong RL and hinting baselines. Without KP hints at inference, KnowRL-Nemotron-1.5B reaches 70.08 average accuracy, already surpassing Nemotron-1.5B by +9.63 points; with selected KPs, performance improves to 74.16, establishing a new state of the art at this scale. The model, curated training data, and code are publicly available at https://github.com/Hasuer/KnowRL.
- Abstract(参考訳): RLVRは大規模言語モデルの推論を改善するが、その有効性は難しい問題に対する厳格な報酬の分散によって制限されることが多い。
最近のヒントベースのRLメソッドは、部分的なソリューションや抽象的なテンプレートを注入することで、疎結合を緩和するが、一般的には、冗長性、不整合、追加のトレーニングオーバーヘッドをもたらすトークンを追加することで、ガイダンスをスケールする。
我々は,ヒントデザインを最小限のガイダンス問題として扱うRL学習フレームワークであるtextbf{KnowRL} (Knowledge-Guided Reinforcement Learning)を提案する。
RLトレーニング中、KnowRLは、ガイダンスを原子知識ポイント(KP)に分解し、制約付きサブセットサーチ(CSS)を使用して、トレーニング用にコンパクトで対話対応のサブセットを構築する。
さらに、プルーニング相互作用パラドックス(pruning interaction paradox) -- 1つのKPを取り除き、複数のKPを取り除き、傷つく可能性がある -- を特定し、依存関係構造の下で堅牢なサブセットのキュレーションを明示的に最適化する。
我々は OpenMath-Nemotron-1.5B から KnowRL-Nemotron-1.5B を訓練する。
1.5Bスケールの8つの推論ベンチマークで、KnowRL-Nemotron-1.5Bは強いRLを一貫して上回り、ベースラインを示唆している。
KPのヒントがなければ、KnowRL-Nemotron-1.5Bの平均精度は70.08に達し、すでにNemotron-1.5Bを+9.63ポイント上回っている。
モデル、キュレートされたトレーニングデータ、コードはhttps://github.com/Hasuer/KnowRL.comで公開されている。
関連論文リスト
- You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models [12.14455026524814]
限定的な推論能力を持つベースモデルに対するラベルフリーなRLアプローチの一般化可能性について検討する。
ラベルのないRLは,既存の推論能力に大きく依存していることがわかった。
本稿では,カリキュラム学習を利用して難解な問題を段階的に導入するラベルフリーRLの簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-11-07T01:05:11Z) - QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation [27.56280364505776]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)を推論タスクで訓練するための中心的なパラダイムとして登場した。
近年の研究では、RLがベースモデルを超えて推論能力にインセンティブを与える能力に疑問が呈されている。
本稿では,課題解決の難しさを抑えるため,学習中に部分解を導入するという,質問増補によるシンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2025-07-17T16:21:47Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。