論文の概要: SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions
- arxiv url: http://arxiv.org/abs/2604.08477v1
- Date: Thu, 09 Apr 2026 17:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.044162
- Title: SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions
- Title(参考訳): スーパーノバ:自然指導の強化学習によるLLMにおける一般推論の回避
- Authors: Ashima Suvarna, Kendrick Phan, Mehrab Beikzadeh, Hritik Bansal, Saadia Gabriel,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコードなどの形式領域における大規模言語モデル(LLM)推論を大幅に改善した。
RLVRを一般的な推論に拡張することは、さまざまな推論スキルにまたがる高品質で検証可能なトレーニングデータが欠如していることによって制約される。
本稿では,一般推論の強化を目的としたRLVR用データキュレーションフレームワークSUPERNOVAを提案する。
- 参考スコア(独自算出の注目度): 17.62959060143886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has significantly improved large language model (LLM) reasoning in formal domains such as mathematics and code. Despite these advancements, LLMs still struggle with general reasoning tasks requiring capabilities such as causal inference and temporal understanding. Extending RLVR to general reasoning is fundamentally constrained by the lack of high-quality, verifiable training data that spans diverse reasoning skills. To address this challenge, we propose SUPERNOVA, a data curation framework for RLVR aimed at enhancing general reasoning. Our key insight is that instruction-tuning datasets containing expert-annotated ground-truth encode rich reasoning patterns that can be systematically adapted for RLVR. To study this, we conduct 100+ controlled RL experiments to analyze how data design choices impact downstream reasoning performance. In particular, we investigate three key factors: (i) source task selection, (ii) task mixing strategies, and (iii) synthetic interventions for improving data quality. Our analysis reveals that source task selection is non-trivial and has a significant impact on downstream reasoning performance. Moreover, selecting tasks based on their performance for individual target tasks outperforms strategies based on overall average performance. Finally, models trained on SUPERNOVA outperform strong baselines (e.g., Qwen3.5) on challenging reasoning benchmarks including BBEH, Zebralogic, and MMLU-Pro. In particular, training on SUPERNOVA yields relative improvements of up to 52.8\% on BBEH across model sizes, demonstrating the effectiveness of principled data curation for RLVR. Our findings provide practical insights for curating human-annotated resources to extend RLVR to general reasoning. The code and data is available at https://github.com/asuvarna31/supernova.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコードのような形式的な領域における大きな言語モデル(LLM)推論を大幅に改善した。
これらの進歩にもかかわらず、LLMは因果推論や時間的理解といった能力を必要とする一般的な推論タスクに苦慮している。
RLVRを一般的な推論に拡張することは、様々な推論スキルにまたがる高品質で検証可能なトレーニングデータの欠如によって、基本的に制限される。
この課題に対処するために,汎用推論の強化を目的としたRLVR用データキュレーションフレームワークであるSUPERNOVAを提案する。
我々のキーとなる洞察は、RLVRに体系的に適応できる豊富な推論パターンを、専門家が注釈付けした地上真実を含む命令チューニングデータセットがエンコードしていることです。
そこで本研究では,100以上の制御されたRL実験を行い,データ設計の選択が下流の推論性能に与える影響を分析する。
特に,3つの要因について検討する。
(i)ソースタスクの選択
(二)タスクミキシング戦略、及び
三 データ品質改善のための合成介入
分析の結果,ソースタスクの選択は非自明であり,下流の推論性能に大きな影響を及ぼすことが明らかとなった。
さらに、個々の目標タスクのパフォーマンスに基づいてタスクを選択することは、全体の平均パフォーマンスに基づいて戦略を上回ります。
最後に、SUPERNOVAでトレーニングされたモデルは、BBEH、Zebralogic、MMLU-Proといった挑戦的な推論ベンチマークにおいて、強いベースライン(例えばQwen3.5)を上回った。
特に、SUPERNOVAのトレーニングでは、モデルサイズをまたいだBBEHの52.8倍の相対的な改善が得られ、RLVRの原理化されたデータキュレーションの有効性が証明された。
本研究は,RLVRを一般的な推論にまで拡張するために,人手によるリソースのキュレーションを行うための実践的な知見を提供する。
コードとデータはhttps://github.com/asuvarna31/supernovaで公開されている。
関連論文リスト
- Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning [82.91265691530351]
A$2$Dは、検証可能な報酬による強化学習の有効性を高めるための適応能力分解手法である。
まず、蒸留なしでRLVRを介して分解器を訓練し、複雑な質問を単純なサブクエストの集合に分解する。
次に、このデコンパイラを使用して、トレーニングデータセットの各質問に対するサブクエストをアノテートし、サブクエストガイダンスを用いてRLVR下での推論をトレーニングする。
論文 参考訳(メタデータ) (2026-01-31T14:48:23Z) - Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning [8.36595587335589]
視覚強化学習法は、しばしば大量のデータを必要とする。
モデルベースRL(MBRL)は、プランニングによる効率的なデータ利用の潜在的なソリューションを提供する。
MBRLには現実世界のタスクの一般化機能が欠けている。
論文 参考訳(メタデータ) (2024-11-15T13:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。