論文の概要: Better LLM Reasoning via Dual-Play
- arxiv url: http://arxiv.org/abs/2511.11881v2
- Date: Wed, 19 Nov 2025 01:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.087007
- Title: Better LLM Reasoning via Dual-Play
- Title(参考訳): デュアルプレイによるLLM推論の高速化
- Authors: Zhengxin Zhang, Chengyu Huang, Aochong Oliver Li, Claire Cardie,
- Abstract要約: 大規模言語モデルのための新しいデュアルプレイフレームワークPasoDobleを紹介する。
パソドブルは、同じベースモデルから2つのモデルを逆行する。
実験結果から,PasoDobleはLCMの推理性能を向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 13.152283780379278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable progress through Reinforcement Learning with Verifiable Rewards (RLVR), yet still rely heavily on external supervision (e.g., curated labels). Adversarial learning, particularly through self-play, offers a promising alternative that enables models to iteratively learn from themselves - thus reducing reliance on external supervision. Dual-play extends adversarial learning by assigning specialized roles to two models and training them against each other, fostering sustained competition and mutual evolution. Despite its promise, adapting dual-play training to LLMs remains limited, largely due to their susceptibility to reward hacking and training instability. In this paper, we introduce PasoDoble, a novel LLM dual-play framework. PasoDoble adversarially trains two models initialized from the same base model: a Proposer, which generates challenging questions with ground-truth answers, and a Solver, which attempts to solve them. We enrich the Proposer with knowledge from a pre-training dataset to ensure the questions' quality and diversity. To avoid reward hacking, the Proposer is rewarded for producing only valid questions that push the Solver's limit, while the Solver is rewarded for solving them correctly, and both are updated jointly. To further enhance training stability, we introduce an optional offline paradigm that decouples Proposer and Solver updates, alternately updating each for several steps while holding the other fixed. Notably, PasoDoble operates without supervision during training. Experimental results show that PasoDoble can improve the reasoning performance of LLMs. Our project page is available at https://hcy123902.github.io/PasoDoble.
- Abstract(参考訳): 大規模言語モデル (LLM) は、Reinforcement Learning with Verifiable Rewards (RLVR) を通じて目覚ましい進歩を遂げている。
対戦型学習は、特にセルフプレイを通じて、モデルが自分自身から反復的に学習できるような、有望な代替手段を提供する。
デュアルプレイは、2つのモデルに特別な役割を割り当て、互いに訓練し、持続的な競争と相互進化を育むことで、敵対的学習を拡張します。
約束にもかかわらず、LLMにデュアルプレイトレーニングを適用することは、主にハッキングやトレーニングの不安定さに報いるため、依然として制限されている。
本稿では,新しいLLMデュアルプレイフレームワークPasoDobleを紹介する。
PasoDobleは、同じベースモデルから初期化した2つのモデルを逆行的に訓練する。
質問の品質と多様性を保証するために、事前学習データセットからの知識をProposerに豊かにします。
報酬のハッキングを避けるため、プロポーラはソルバーの限界を押し上げる有効な質問のみを生成することで報奨を受け、ソルバーはそれらを正しく解くことで報奨を受け、両者は共同で更新される。
トレーニングの安定性をさらに向上するために,ProposerとSolverの更新を分離するオプションのオフラインパラダイムを導入する。
特に、PasoDobleはトレーニング中に監督なしで運用されている。
実験結果から,PasoDobleはLCMの推理性能を向上させることができることがわかった。
私たちのプロジェクトページはhttps://hcy123902.github.io/PasoDoble.comで公開されている。
関連論文リスト
- Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。
近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。
数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文 参考訳(メタデータ) (2025-10-27T17:58:02Z) - EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Two-Step Offline Preference-Based Reinforcement Learning with Constrained Actions [38.48223545539604]
PRCと呼ばれる新しい2段階学習手法を開発した。
我々は,ロボット制御環境における各種データセットの学習効率を実証的に検証した。
論文 参考訳(メタデータ) (2023-12-30T21:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。