論文の概要: GASP: Guided Asymmetric Self-Play For Coding LLMs
- arxiv url: http://arxiv.org/abs/2603.15957v1
- Date: Mon, 16 Mar 2026 22:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.014402
- Title: GASP: Guided Asymmetric Self-Play For Coding LLMs
- Title(参考訳): GASP:コーディングLLMのためのガイド付き非対称セルフプレイ
- Authors: Swadesh Jana, Cansu Sancaktar, Tomáš Daniš, Georg Martius, Antonio Orvieto, Pavel Kolev,
- Abstract要約: 非対称なセルフプレイは、大規模言語モデルの訓練後において有望なパラダイムとして現れている。
本稿では,リアルタイムなゴールポスト質問によるグラウンド化を実現するためのガイド付き非対称セルフプレイ(GASP)を提案する。
We improve pass@20 on LiveCodeBench (LCB) by 2.5% by unguided asymmetric self-play。
- 参考スコア(独自算出の注目度): 37.79170066221302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asymmetric self-play has emerged as a promising paradigm for post-training large language models, where a teacher continually generates questions for a student to solve at the edge of the student's learnability. Although these methods promise open-ended data generation bootstrapped from no human data, they suffer from one major problem: not all problems that are hard to solve are interesting or informative to improve the overall capabilities of the model. Current asymmetric self-play methods are goal-agnostic with no real grounding. We propose Guided Asymmetric Self-Play (GASP), where grounding is provided by real-data goalpost questions that are identified to pose a hard exploration challenge to the model. During self-play, the teacher first generates an easier variant of a hard question, and then a harder variant of that easier question, with the goal of gradually closing the gap to the goalpost throughout training. Doing so, we improve pass@20 on LiveCodeBench (LCB) by 2.5% over unguided asymmetric self-play, and through the curriculum constructed by the teacher, we manage to solve hard goalpost questions that remain out of reach for all baselines.
- Abstract(参考訳): 非対称な自己プレイは、教師が生徒の学習可能性の端で解決すべき質問を継続的に生成する、大きな言語モデルの訓練後モデルのための有望なパラダイムとして現れてきた。
これらの方法は、人間のデータからブートストラップされたオープンエンドなデータ生成を保証しますが、それらは1つの大きな問題に悩まされます。
現在の非対称自己再生法はゴールに依存しないが、実際の接地は存在しない。
本稿では,GASP(Garded Asymmetric Self-Play)を提案する。
自己プレイの間、教師はまず難しい質問のより簡単な変種を生成し、それからその簡単な質問のより難しい変種を生成します。
そこで我々は,無誘導非対称な自己プレイよりも2.5%向上したLiveCodeBench(LCB)のpass@20を,教師が構築したカリキュラムを通じて,すべてのベースラインに到達できないハードゴールポスト問題の解決に成功している。
関連論文リスト
- Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability [25.507069397981194]
本稿では,2段階のメタRLを実現することで,事前学習したモデルの潜在能力を高めて,学習を疎開し,二段階の報奨を得られることを示す。
以上の結果から, 有用なステップ石を生成できる能力は, 実際に難解な問題を解く能力を必要としないことが示唆された。
論文 参考訳(メタデータ) (2026-01-26T18:46:56Z) - DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution [38.660154251426505]
DARC(Decoupled Asymmetric Reasoning Curriculum)は,自己進化過程を安定化する2段階のフレームワークである。
DARCはモデルに依存しないので、9つの推論ベンチマークと3つのバックボーンモデルで平均10.9ポイントの改善が得られる。
論文 参考訳(メタデータ) (2026-01-20T09:12:27Z) - Self-Questioning Language Models [58.73276539661649]
本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。
提案者と解答者はともに強化学習を通じて訓練される。
3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文 参考訳(メタデータ) (2025-08-05T17:51:33Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。