論文の概要: Towards Understanding Self-play for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.27072v1
- Date: Fri, 31 Oct 2025 00:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 19:57:09.739371
- Title: Towards Understanding Self-play for LLM Reasoning
- Title(参考訳): LLM推論におけるセルフプレイの理解に向けて
- Authors: Justin Yang Chae, Md Tanvirul Alam, Nidhi Rastogi,
- Abstract要約: 我々は絶対零共振器のレンズを通して自己再生の訓練力学を解析する。
本研究では,パラメータ更新間隔,トークン分布のエントロピーダイナミクス,代案報酬関数について検討した。
- 参考スコア(独自算出の注目度): 3.058685580689604
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in large language model (LLM) reasoning, led by reinforcement learning with verifiable rewards (RLVR), have inspired self-play post-training, where models improve by generating and solving their own problems. While self-play has shown strong in-domain and out-of-domain gains, the mechanisms behind these improvements remain poorly understood. In this work, we analyze the training dynamics of self-play through the lens of the Absolute Zero Reasoner, comparing it against RLVR and supervised fine-tuning (SFT). Our study examines parameter update sparsity, entropy dynamics of token distributions, and alternative proposer reward functions. We further connect these dynamics to reasoning performance using pass@k evaluations. Together, our findings clarify how self-play differs from other post-training strategies, highlight its inherent limitations, and point toward future directions for improving LLM math reasoning through self-play.
- Abstract(参考訳): 大規模言語モデル(LLM)推論の最近の進歩は、強化学習と検証可能な報酬(RLVR)によって導かれるもので、自己学習後の学習に刺激を与え、モデルが自身の問題を生成・解決することで改善されている。
自己プレイはドメイン内とドメイン外ゲインを強く示していますが、これらの改善の背後にあるメカニズムはよく分かっていません。
本研究では,Absolute Zero Reasonerのレンズによるセルフプレイのトレーニングダイナミクスを分析し,RLVRと教師付き微調整(SFT)を比較した。
本研究では,パラメータ更新間隔,トークン分布のエントロピーダイナミクス,代案報酬関数について検討した。
Pass@k評価を用いて、これらのダイナミクスを推論性能に接続する。
本研究は,学習後の他の戦略とセルフプレイがどう異なるかを明らかにするとともに,その固有の制約を強調し,自己プレイによるLSMの算数推論を改善するための今後の方向性を示すものである。
関連論文リスト
- Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap [11.709132975874638]
理論的には、ソルバ検証ギャップの概念を用いて自己改善の訓練力学をモデル化する。
分析を拡張して、外部データがフレームワーク内のこれらのダイナミクスにどのように影響するかを調べます。
論文 参考訳(メタデータ) (2025-06-29T06:48:47Z) - A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models [103.88578274567784]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模共振モデルの強化微調整を強化する直感的かつ効果的な方法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識するためのコンテキスト内モチベーションとして機能する。
MeRFはRLVRベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - No Free Lunch: Rethinking Internal Feedback for LLM Reasoning [12.881043910316787]
強化学習は、推論を改善するために大規模言語モデル(LLM)の訓練後において強力なパラダイムとして登場した。
内的フィードバック(RLIF)からの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は,外的報酬ではなく,本質的なモデル由来の信号にのみ依存する手法である。
論文 参考訳(メタデータ) (2025-06-20T17:59:52Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Superficial Self-Improved Reasoners Benefit from Model Merging [49.09091498084467]
高品質データコーパスの合成ソリューションとしての自己改善
特に,本分析の結果から,LMがドメイン内推論の精度を向上したとしても,それらの一般的な推論能力を損なうことが判明した。
提案手法は,オリジナルモデルと自己改善モデルとの重みを戦略的に組み合わせ,一般化を保ちながら反復モデルマージング(IMM)を提案する。
論文 参考訳(メタデータ) (2025-03-03T22:41:25Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。