論文の概要: Scaling Self-Play with Self-Guidance
- arxiv url: http://arxiv.org/abs/2604.20209v1
- Date: Wed, 22 Apr 2026 05:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.98074
- Title: Scaling Self-Play with Self-Guidance
- Title(参考訳): セルフガイドによるセルフプレイのスケーリング
- Authors: Luke Bailey, Kaiyue Wen, Kefan Dong, Tatsunori Hashimoto, Tengyu Ma,
- Abstract要約: Self-Guided Self-Play (SGS)は、Conjecturerをジェネラシーから遠ざけるセルフプレイアルゴリズムである。
SGSは80ラウンド未満のセルフプレイで、最強のベースラインの解決率を上回っています。
- 参考スコア(独自算出の注目度): 62.13619253976748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM self-play algorithms are notable in that, in principle, nothing bounds their learning: a Conjecturer model creates problems for a Solver, and both improve together. However, in practice, existing LLM self-play methods do not scale well with large amounts of compute, instead hitting learning plateaus. We argue this is because over long training runs, the Conjecturer learns to hack its reward, collapsing to artificially complex problems that do not help the Solver improve. To overcome this, we introduce Self-Guided Self-Play (SGS), a self-play algorithm in which the language model itself guides the Conjecturer away from degeneracy. In SGS, the model takes on three roles: Solver, Conjecturer, and a Guide that scores synthetic problems by their relevance to unsolved target problems and how clean and natural they are, providing supervision against Conjecturer collapse. Our core hypothesis is that language models can assess whether a subproblem is useful for achieving a goal. We evaluate the scaling properties of SGS by running training for significantly longer than prior works and by fitting scaling laws to cumulative solve rate curves. Applying SGS to formal theorem proving in Lean4, we find that it surpasses the asymptotic solve rate of our strongest RL baseline in fewer than 80 rounds of self-play and enables a 7B parameter model, after 200 rounds of self-play, to solve more problems than a 671B parameter model pass@4.
- Abstract(参考訳): LLMの自己プレイアルゴリズムは、原則として、学習には何ら拘束力がないという点で注目に値する: Conjecturerモデルはソルバーの問題を発生させ、両者を一緒に改善する。
しかし、実際には既存のLLMセルフプレイ法は、学習高原に到達するのではなく、大量の計算でうまくスケールしない。
これは、長いトレーニング期間を通じて、Conjecturerがその報酬をハックすることを学び、Solverの改善に役立たない、人工的に複雑な問題にぶつかるからである、と我々は主張する。
これを解決するために,言語モデル自体が Conjecturer を縮退から遠ざけるセルフプレイアルゴリズムである Self-Guided Self-Play (SGS) を導入する。
SGSでは、Solver(英語版)、Conjecturer(英語版)、およびガイド(英語版)の3つの役割を担っている。
我々のコア仮説は、サブプロブレムがゴールを達成するのに有用かどうかを言語モデルが評価できるということである。
本研究では,SGSのスケーリング特性について,従来の作業よりもかなり長いトレーニングを行ない,累積解率曲線にスケーリング法則を適用することで評価する。
SGSをLean4で証明した公式な定理に適用すると、80ラウンド未満の自己プレイで最強のRLベースラインの漸近的解決率を超え、200ラウンドの自己プレイの後、7Bパラメータモデルを可能にし、671Bパラメータモデルパス@4よりも多くの問題を解決することができる。
関連論文リスト
- RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning [63.432969627395686]
RefineRLは、競合するプログラミング問題に対して、大規模言語モデルの自己精製能力を解き放つために設計された新しいアプローチである。
Skeptical-Agentは、CP問題の公開テストケースに対して生成されたソリューションを検証するためのローカル実行ツールを備えた反復的な自己修復エージェントである。
強化学習ソリューションは、標準RLVRデータのみを用いてLLMを自己精製にインセンティブを与える。
論文 参考訳(メタデータ) (2026-04-01T11:54:57Z) - GASP: Guided Asymmetric Self-Play For Coding LLMs [37.79170066221302]
非対称なセルフプレイは、大規模言語モデルの訓練後において有望なパラダイムとして現れている。
本稿では,リアルタイムなゴールポスト質問によるグラウンド化を実現するためのガイド付き非対称セルフプレイ(GASP)を提案する。
We improve pass@20 on LiveCodeBench (LCB) by 2.5% by unguided asymmetric self-play。
論文 参考訳(メタデータ) (2026-03-16T22:13:19Z) - Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability [25.507069397981194]
本稿では,2段階のメタRLを実現することで,事前学習したモデルの潜在能力を高めて,学習を疎開し,二段階の報奨を得られることを示す。
以上の結果から, 有用なステップ石を生成できる能力は, 実際に難解な問題を解く能力を必要としないことが示唆された。
論文 参考訳(メタデータ) (2026-01-26T18:46:56Z) - DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution [38.660154251426505]
DARC(Decoupled Asymmetric Reasoning Curriculum)は,自己進化過程を安定化する2段階のフレームワークである。
DARCはモデルに依存しないので、9つの推論ベンチマークと3つのバックボーンモデルで平均10.9ポイントの改善が得られる。
論文 参考訳(メタデータ) (2026-01-20T09:12:27Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。