論文の概要: Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
- arxiv url: http://arxiv.org/abs/2601.22975v2
- Date: Mon, 02 Feb 2026 21:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.693454
- Title: Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
- Title(参考訳): 未確認のインターネットテキストから制限なしのRLVRタスクをシンセサイザーするGolden Goose
- Authors: Ximing Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi,
- Abstract要約: Golden Gooseは、未検証のインターネットテキストから無制限のRLVRタスクを合成するトリックだ。
大規模なRLVRデータセットであるGoseReason-0.7Mを合成するために、推論に富んだ検証不可能なコーパスを利用する。
また、Golden Gooseを現実の環境で展開し、サイバーセキュリティドメイン用の生のFinWebスクラップからRLVRタスクを合成します。
- 参考スコア(独自算出の注目度): 90.21130870640057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLMs) における複雑な推論を解き明かす基盤となっている。
しかし、RLのスケールアップは、長期トレーニングよりも改善が飽和する、限定的な既存の検証可能なデータによってボトルネックになる。
これを解決するために,未検証のインターネットテキストから無制限のRLVRタスクを合成する簡単な手法であるGolden Gooseを提案する。
ソーステキストが与えられた後、LLMにキー推論ステップを特定してマスクするよう促し、それから多種多様でもっともらしいイントラクタを生成します。
これにより、従来のRLVRデータ構築(例えば科学教科書)から除外される推論に富んだ検証不可能なコーパスを利用して、数学、プログラミング、一般的な科学領域にまたがる0.7百万以上のタスクを持つ大規模RLVRデータセットであるGooseReason-0.7Mを合成できる。
実証的には、GooseReasonは既存のRLVRデータに飽和したモデルを効果的に復活させ、連続的なRLの下で堅牢で持続的なゲインをもたらし、15の多様なベンチマークで1.5Bと4B-Instructモデルの新たな最先端結果を達成する。
最後に、Golden Gooseを現実の環境でデプロイし、以前のRLVRデータが存在しないサイバーセキュリティドメイン用の生のFineWebスクラップからRLVRタスクを合成します。
Qwen3-4B-Instruct on the result data GooseReason-Cyber set a new-of-the-art in Cybersecurity, as a 7B domain-specialized model with extensive domain-specific pre-training and post-training。
これは、豊富な、推論に富む、検証不可能なインターネットテキストを活用することで、RLVRデータを自動スケールアップする可能性を強調している。
関連論文リスト
- Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards [13.064343544668283]
MR-RLVR(Masked-and-Reordered RLVR)を提案する。
MR-RLVRをQwen2.5-3BとDeepSeek-R1-Distill-Qwen-1.5Bで実装し,AIME24,AIME25,AMC23,MATH500で評価した。
論文 参考訳(メタデータ) (2025-11-21T18:23:04Z) - Reinforcement Learning with Rubric Anchors [26.9944158097067]
RLVR(Reinforcement Learning from Verifiable Rewards)は、大規模言語モデル(LLM)の強化のための強力なパラダイムとして登場した。
我々はRLVRパラダイムを、ルーブリックベースの報酬を統合することで、オープンエンドタスクに拡張する。
私たちは、これまでで最大のルーリック報酬システムを構築しており、人間やLLM、ハイブリッドな人間とLLMのコラボレーションから1万以上のルーリックを集めています。
論文 参考訳(メタデータ) (2025-08-18T10:06:08Z) - QiMeng-CodeV-R1: Reasoning-Enhanced Verilog Generation [51.393569044134445]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。
しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。
本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文 参考訳(メタデータ) (2025-05-30T03:51:06Z) - Absolute Zero: Reinforced Self-play Reasoning with Zero Data [57.30662797376754]
検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めることを約束している。
本稿では,AZR(Absolute Zero Reasoner)について紹介する。
AZRは、コーディングおよび数学的推論タスクにおける全体的なSOTA性能を達成し、既存のゼロセットモデルより優れている。
論文 参考訳(メタデータ) (2025-05-06T09:08:00Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。