論文の概要: SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2506.08989v1
- Date: Tue, 10 Jun 2025 17:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.958213
- Title: SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning
- Title(参考訳): SwS: LLM推論のための強化学習における自己認識弱さ駆動型問題合成
- Authors: Xiao Liang, Zhong-Zhi Li, Yeyun Gong, Yang Wang, Hengyuan Zhang, Yelong Shen, Ying Nian Wu, Weizhu Chen,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
- 参考スコア(独自算出の注目度): 95.28059121743831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for training large language models (LLMs) on complex reasoning tasks, such as mathematical problem solving. A prerequisite for the scalability of RLVR is a high-quality problem set with precise and verifiable answers. However, the scarcity of well-crafted human-labeled math problems and limited-verification answers in existing distillation-oriented synthetic datasets limit their effectiveness in RL. Additionally, most problem synthesis strategies indiscriminately expand the problem set without considering the model's capabilities, leading to low efficiency in generating useful questions. To mitigate this issue, we introduce a Self-aware Weakness-driven problem Synthesis framework (SwS) that systematically identifies model deficiencies and leverages them for problem augmentation. Specifically, we define weaknesses as questions that the model consistently fails to learn through its iterative sampling during RL training. We then extract the core concepts from these failure cases and synthesize new problems to strengthen the model's weak areas in subsequent augmented training, enabling it to focus on and gradually overcome its weaknesses. Without relying on external knowledge distillation, our framework enables robust generalization byempowering the model to self-identify and address its weaknesses in RL, yielding average performance gains of 10.0% and 7.7% on 7B and 32B models across eight mainstream reasoning benchmarks.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、数学的な問題解決のような複雑な推論タスクにおいて、大きな言語モデル(LLM)を訓練するのに有効であることが証明されている。
RLVRのスケーラビリティの前提条件は、正確で検証可能な答えをセットした高品質な問題である。
しかし, 既存の蒸留指向合成データセットにおいて, 精度のよい人間のラベル付き数学問題と限定検証解の不足は, RLにおける有効性を制限している。
さらに、ほとんどの問題合成戦略は、モデルの能力を考慮せずに問題集合を無差別に拡張し、有用な質問を生成するための効率を低くする。
この問題を軽減するために、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を導入する。
具体的には、弱点を、RLトレーニング中に反復サンプリングによってモデルが一貫して学習に失敗する問題として定義する。
次に、これらの障害事例からコアコンセプトを抽出し、新たな問題を合成して、その後の強化トレーニングにおけるモデルの弱点を強化し、その弱点に集中し、徐々にその弱点を克服できるようにします。
外部知識の蒸留を頼らずに,本フレームワークはモデルを自己識別し,RLの弱点に対処することにより,8つの主要な推論ベンチマークにおいて,7Bモデルと32Bモデルの平均性能が10.0%,7.7%向上する,堅牢な一般化を可能にする。
関連論文リスト
- Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning [19.457621121430464]
STEM領域での強化学習を伴う大規模推論モデル(LRM)の訓練は、高品質で多様性があり、検証可能な問題セットの不足によって妨げられる。
検証可能な報酬(RLVR)を用いたLRM強化学習における高品質アラインド推論問題の一元化手法であるSHARPを導入する。
我々は、最先端のLEMを活用して、難解なSTEM質問を推論し、検証し、次に、強化学習ループを使用して、検証可能な報酬信号によってモデルの推論を洗練する。
論文 参考訳(メタデータ) (2025-05-20T09:54:42Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Self Rewarding Self Improving [0.0]
我々は,大規模な言語モデルが参照ソリューションを必要とせずに自己判断によって効果的に自己改善できることを実証した。
カウントダウンパズルとMIT統合ビー問題に関する実験は、モデルが真理の答えなしに信頼できる報酬信号を提供できることを示している。
論文 参考訳(メタデータ) (2025-05-12T23:51:04Z) - Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations [4.39614901077936]
大規模言語モデル(LLM)は、構造化推論機能への関心が高まっている。
Abstraction and Reasoning Corpusベンチマークは、AIモデルが新しい問題にどのように一般化するかをテストすることによって、これらの能力を評価する上で重要な役割を果たす。
この研究は、現実世界のシナリオに固有のあいまいさと可変性を扱うことができる、より堅牢で適応可能なAIシステムを開発する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-04-22T13:43:58Z) - Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Sirius: Contextual Sparsity with Correction for Efficient LLMs [17.433112174650514]
CS(Contextual Sparsity)は、トレーニングのない性質と、品質劣化を伴わずに高い圧縮比に達する能力に訴えている。
エンドツーエンドの精度の差にもかかわらず、スパースモデルは一般的な問題解決ロジックを共有することが多い。
本稿では、CSモデルの品質を推論タスクで大幅に回復する効率的な補正機構であるSiriusを紹介する。
論文 参考訳(メタデータ) (2024-09-05T18:38:07Z) - AttNS: Attention-Inspired Numerical Solving For Limited Data Scenarios [51.94807626839365]
限定データによる微分方程式の解法として,注目型数値解法(AttNS)を提案する。
AttNSは、モデル一般化とロバスト性の向上におけるResidual Neural Networks(ResNet)のアテンションモジュールの効果にインスパイアされている。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。