論文の概要: Weak-to-Strong Elicitation via Mismatched Wrong Drafts
- arxiv url: http://arxiv.org/abs/2605.17314v1
- Date: Sun, 17 May 2026 08:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.898029
- Title: Weak-to-Strong Elicitation via Mismatched Wrong Drafts
- Title(参考訳): ミスマッチドローフによる弱ストロング励起
- Authors: Wei Deng,
- Abstract要約: より小さな領域で訓練されたモデルから、数学的に間違ったドラフトを強い学習者へ注入することで、MATH-500 や配布外 AIME 2025/2026 において、標準の GRPO よりも一貫して優れることがわかった。
SFTなし、報酬モデルなし、合成データなし、生産基準修正のインナーループなしのシングルで訓練されたレシピは、Mathstral-7B-v0.1で71.98%のMATH-500に達した。
- 参考スコア(独自算出の注目度): 4.199355196502869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider whether off-policy experience from a smaller, weaker model can elicit capability in a stronger learner that on-policy RL fine-tuning (e.g., GRPO) does not reach. We find that injecting mathematically wrong drafts from a smaller but more domain-trained model -- mismatched to the current problem -- into a stronger learner's GRPO context consistently outperforms standard on-policy GRPO on held-out MATH-500 and out-of-distribution AIME 2025/2026. Concretely, we use Mathstral-7B as the learner, Qwen2.5-Math-1.5B as the draft model, 8.8K Level 3--5 MATH problems (with MATH-500 held out), and train with Dr. GRPO. Mismatch is an active ingredient: shuffling drafts to mismatched problems while holding everything else constant yields $+1.62$pp on MATH-500 (greedy pass@1) over the matched-wrong variant ($n=10$ seeds, $p=0.0015$, Welch's $t$). In fact, the mismatched-wrong variant leads all other variants we tested on MATH-500 across both greedy pass@1 and sampling pass@$k$. On out-of-distribution AIME 2025 and 2026, the mismatched-wrong variant uniquely lifts pass@$k$ above both Mathstral-7B (in its native [INST] format) and the Qwen2.5-Math-1.5B draft model at every sample budget from $k=1$ to $k=1024$ across 2 seeds ($+14.2$pp on 2025 and $+9.0$pp on 2026 at pass@1024 over Mathstral-7B), and at pass@1024 also leads no-draft, matched-wrong, and mismatched-correct variants on both years. All variants use the same prompt with no draft injection at test time. The recipe -- trained on a single GPU with no SFT, no reward models, no synthesized data, and no produce-critique-revise inner loop -- reaches 71.98% MATH-500 on Mathstral-7B-v0.1, the highest published result on this model to our knowledge, surpassing the heavier WizardMath pipeline at 70.9% on full MATH (SFT + PPO with process/instruction reward models).
- Abstract(参考訳): より小型で弱いモデルによる非政治経験が、オンラインRL微調整(例えばGRPO)が到達しない、より強力な学習者において能力を引き出すことができるかどうかを考察する。
より小さな領域で訓練されたモデルから数学的に間違ったドラフトを注入することで、より強力な学習者のGRPOコンテキストが、MATH-500やアウト・オブ・ディストリビューションのAIME 2025/2026において、標準のGRPOよりも一貫して優れていることがわかった。
具体的には,Mathstral-7Bを学習者として,Qwen2.5-Math-1.5Bをドラフトモデルとして,8.8Kレベル3-5 MATH問題(MATH-500を保留)とGRPO博士との訓練を行った。
ミスマッチは有効成分である: 他の全てを保持しながら、ミスマッチした問題にドラフトをシャッフルすると、MATH-500 (greedy pass@1) で$+1.62$pp になる(マッチした文字列の変種(n=10$ seed, $p=0.0015$, Welch's $t$)。
実際、ミスマッチ型は、私たちがMATH-500でテストした他のすべての亜種をgreedy pass@1 と sample pass@$k$ で導く。
2025年と2026年のディストリビューションのアウト・オブ・ディストリビューション AIME 2025 と 2026 では、ミスマッチしたウルグ変種が pass@k$ を Mathstral-7B (ネイティブな [INST] フォーマットで) と Qwen2.5-Math-1.5B のドラフトモデルの両方のサンプル予算において、$k=1$ から $k=1024$ の2つの種に対して$+14.2$pp と $+9.0$pp の2種に対して$+14.2$pp と $@1024 at pass@1024 over Mathstral-7B と、pass@1024 では、ドラフト、マッチしたウルグ、ミスマッチした修正版の両方を導いている。
すべての派生型は、テスト時にドラフトインジェクションなしで同じプロンプトを使用する。
このレシピは、SFTのない1つのGPUでトレーニングされ、報酬モデルがなく、合成データもなく、生産的批判的修正の内ループもない。Mathstral-7B-v0.1で71.98%のMATH-500に達し、このモデルで最も高い結果が私たちの知る限り、重いWizardMathパイプラインを70.9%でフルMATH(SFT + PPO with process/instruction reward model)で上回った。
関連論文リスト
- Procedural-skill SFT across capacity tiers: A W-Shaped pre-SFT Trajectory and Regime-Asymmetric Mechanism on 0.8B-4B Qwen3.5 Models [0.0]
我々は3つのQwen3.5高密度スケールにおける手続きスキルSFTの寄与を測定した。
SFT対応のプロシージャ$$リフトは、大まかに一様である。
論文 参考訳(メタデータ) (2026-05-12T10:19:33Z) - Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions [1.6498361958317636]
51のポストトレーニングアルゴリズムを同一のインフラで実装した統合フレームワークを提案する。
本研究では,4つのモデルスケール(0.5B--7B),3つの評価領域,20種類のDPO分類にまたがる8つのアルゴリズムについて検討した。
20種類のDPOはボンフェロニ補正後にバニラDPOを著しく上回りませんが、唯一の重要な異常値であるSimPOはより悪くなります。
論文 参考訳(メタデータ) (2026-03-19T04:10:38Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning [51.13280433665446]
大規模言語モデル(LLM)は、一般的な数学的推論では優れているが、専門的な技術的数学では破滅的に失敗する。
無線通信では、問題は情報理論的境界の正確な操作を必要とするが、最先端のモデルでさえ有能な性能を達成するのに苦労する。
本稿では、コンパクトモデル(0.5B-7Bパラメータ)がドメイン固有強化学習により、より大きなモデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2025-09-27T09:58:03Z) - Online Learning of Halfspaces with Massart Noise [47.71073318490341]
我々はMassartノイズの存在下でのオンライン学習の課題について検討する。
計算効率のよいアルゴリズムで, 誤り境界が$eta T + o(T)$であることを示す。
我々はMassartオンライン学習者を用いて、任意のラウンドでランダムなアクションを選択するよりも、少なくとも$(1-1/k) Delta T - o(T)$の報酬を得られる効率的なバンディットアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-05-21T17:31:10Z) - Efficient and Adaptive Posterior Sampling Algorithms for Bandits [5.050520326139362]
我々は,有界報酬を持つ帯域幅に対するトンプソンサンプリングに基づくアルゴリズムについて検討する。
本稿では2つのパラメータ化トンプソンサンプリングに基づくアルゴリズムを提案する。
両方のアルゴリズムが$O left(Klnalpha+1(T)/Delta right)$ regret bound, ここで$K$はアームの数、$T$は有限学習地平線、$Delta$はサブ最適アームを引っ張る際のラウンドパフォーマンス損失を表す。
論文 参考訳(メタデータ) (2024-05-02T05:24:28Z) - BESS: Balanced Entity Sampling and Sharing for Large-Scale Knowledge
Graph Completion [1.083504248254529]
我々は、OGB-LSC@NeurIPS 2022のWikiKG90Mv2トラックに受賞申請を提示する。
このタスクは、90M+ノードと600M+エッジからなる大規模知識グラフWikiKG90Mv2上のリンク予測である。
論文 参考訳(メタデータ) (2022-11-22T13:51:33Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。