論文の概要: SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.14147v2
- Date: Wed, 21 May 2025 11:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.353763
- Title: SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning
- Title(参考訳): SHARP:大規模共振モデル強化学習のための高品質配向共振問題の合成
- Authors: Xiong Jun Wu, Zhenduo Zhang, ZuJie Wen, Zhiqiang Zhang, Wang Ren, Lei Shi, Cai Chen, Deng Zhao, Dingnan Jin, Qing Cui, Jun Zhou,
- Abstract要約: STEM領域での強化学習を伴う大規模推論モデル(LRM)の訓練は、高品質で多様性があり、検証可能な問題セットの不足によって妨げられる。
検証可能な報酬(RLVR)を用いたLRM強化学習における高品質アラインド推論問題の一元化手法であるSHARPを導入する。
我々は、最先端のLEMを活用して、難解なSTEM質問を推論し、検証し、次に、強化学習ループを使用して、検証可能な報酬信号によってモデルの推論を洗練する。
- 参考スコア(独自算出の注目度): 15.694898687258508
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training large reasoning models (LRMs) with reinforcement learning in STEM domains is hindered by the scarcity of high-quality, diverse, and verifiable problem sets. Existing synthesis methods, such as Chain-of-Thought prompting, often generate oversimplified or uncheckable data, limiting model advancement on complex tasks. To address these challenges, we introduce SHARP, a unified approach to Synthesizing High-quality Aligned Reasoning Problems for LRMs reinforcement learning with verifiable rewards (RLVR). SHARP encompasses a strategic set of self-alignment principles -- targeting graduate and Olympiad-level difficulty, rigorous logical consistency, and unambiguous, verifiable answers -- and a structured three-phase framework (Alignment, Instantiation, Inference) that ensures thematic diversity and fine-grained control over problem generation. We implement SHARP by leveraging a state-of-the-art LRM to infer and verify challenging STEM questions, then employ a reinforcement learning loop to refine the model's reasoning through verifiable reward signals. Experiments on benchmarks such as GPQA demonstrate that SHARP-augmented training substantially outperforms existing methods, markedly improving complex reasoning accuracy and pushing LRM performance closer to expert-level proficiency. Our contributions include the SHARP strategy, framework design, end-to-end implementation, and experimental evaluation of its effectiveness in elevating LRM reasoning capabilities.
- Abstract(参考訳): STEM領域での強化学習を伴う大規模推論モデル(LRM)の訓練は、高品質で多様性があり、検証可能な問題セットの不足によって妨げられる。
既存の合成手法、例えばChain-of-Thought(英語版)のプロンプトは、複雑タスクにおけるモデル進行を制限するため、単純化されたデータや検証不可能なデータを生成することが多い。
これらの課題に対処するために、検証可能な報酬(RLVR)を用いたLRM強化学習のための高品質アラインド推論問題を合成するための統一的なアプローチであるSHARPを導入する。
SHARPには戦略的な自己調整原則 -- 卒業生とオリンピアードレベルの難易度、厳密な論理的整合性、曖昧で検証可能な回答 -- と、テーマの多様性と問題生成のきめ細かい制御を保証する構造化された3段階のフレームワーク(アライメント、インスティファイション、推論)が含まれています。
我々は、最先端のLEMを活用して、難解なSTEM質問を推論し、検証し、次に、強化学習ループを使用して、検証可能な報酬信号によってモデルの推論を洗練する。
GPQAなどのベンチマーク実験では、SHARPによる強化トレーニングが既存の手法よりも大幅に優れており、複雑な推論精度が向上し、LEM性能がエキスパートレベルの熟練度に近づいたことが示されている。
コントリビューションには、SHARP戦略、フレームワーク設計、エンドツーエンド実装、およびLEM推論能力の向上におけるその効果の実験的評価が含まれる。
関連論文リスト
- Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs [26.49278448640309]
我々は,RLトレーニングとPRM能力の関係を系統的に調査する。
本研究は,問題解決能力とプロセス管理能力が相補的な推論の次元を表わすことを示した。
本稿では,モデルが生成したソリューションを自律的に評価・再評価するイントロスペクティブフレームワークであるSelf-PRMを提案する。
論文 参考訳(メタデータ) (2025-05-16T13:23:26Z) - Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - Multi-Agent Actor-Critic with Harmonic Annealing Pruning for Dynamic Spectrum Access Systems [19.817004235581884]
マルチエージェント深層強化学習(MADRL)は、複雑な環境で分散化された意思決定システムを最適化するための強力なツールとして登場した。
リソース制約のあるエッジデバイスにディープラーニングモデルをデプロイすることは、計算コストが高いため、依然として困難である。
独立系アクターグローバル批評家パラダイムに段階的ネットワークプルーニングを統合する新しいMARLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T12:56:23Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - An Adaptive Framework for Generating Systematic Explanatory Answer in Online Q&A Platforms [62.878616839799776]
質問応答(QA)性能を向上させるために設計された,革新的なフレームワークであるSynthRAGを提案する。
SynthRAGは動的コンテンツの構造化に適応的なアウトラインを用いることで従来のモデルを改善する。
Zhihuプラットフォーム上のオンラインデプロイメントでは、SynthRAGの回答が注目すべきユーザエンゲージメントを実現していることが明らかになった。
論文 参考訳(メタデータ) (2024-10-23T09:14:57Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。