論文の概要: Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
- arxiv url: http://arxiv.org/abs/2605.13301v1
- Date: Wed, 13 May 2026 10:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.975192
- Title: Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
- Title(参考訳): シンプルで統一されたスケーリングによるゴールド・メダル・レベルオリンピアド推論の実現
- Authors: Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li, Zhilin Wang, Jiacheng Chen, Futing Wang, Xuyang Hu, Yuchen Fan, Bangjie Xu, Yucheng Su, Xinmiao Han, Chenxi Li, Haodi Lei, Yufeng Zhao, Zejin Lin, Qianjia Cheng, Tong Zhu, Xiaoye Qu, Ganqu Cui, Peng Ye, Yun Luo, Zhouchen Lin, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng,
- Abstract要約: 訓練後,背骨を厳密なオリンピックレベル解法に変換するためのシンプルで統一的なレシピを紹介した。
約340Kのサブ8K軌道上でSFTで30B-A3Bのバックボーンをトレーニングし,200RLステップを行った。
結果として得られるモデル SU-01 は、100Kトークンを超える軌道上の難しい問題に対する安定な推論をサポートする。
- 参考スコア(独自算出の注目度): 108.48818215929494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.
- Abstract(参考訳): 推論モデルの最近の進歩は、数学的および科学的な問題解決に大きく進歩しており、いくつかのシステムは国際数学オリンピアード(IMO)と国際物理オリンピアード(IPhO)の問題をゴールド・メディカルレベルに到達している。
本稿では,学習後の推論バックボーンを厳格なオリンピックレベルの解法に変換するための,シンプルで統一的なレシピを提案する。
レシピはまず、厳密な証明探索と自己チェックの振る舞いを取り入れるために、SFTの逆パープレキシティカリキュラムを使用し、それから2段階のRLパイプラインを通じてこれらの振る舞いをスケールし、検証可能な報酬でRLからより繊細な証明レベルのRLへと発展させ、最終的にテスト時間スケーリングによるパフォーマンスの解決を向上する。
このレシピを応用して、約340Kサブ8Kトーケン軌道上で30B-A3BバックボーンをSFTでトレーニングし、200RLステップで処理する。
結果として得られたSU-01は100Kトークンを超えるトラジェクトリの難解な問題に対する安定した推論をサポートし、IMO 2025/USAMO 2026やIPhO 2024/2025を含む数学的および物理的オリンピックにおけるゴールド・メディカルレベルのパフォーマンスを実現している。
また、数学や物理学以外の領域への科学的推論の強い一般化も示している。
関連論文リスト
- QED-Nano: Teaching a Tiny Model to Prove Hard Theorems [34.119608370222245]
我々は,オリンピアードレベルの証明のための4BモデルであるQED-Nanoを構築した。
QED-NanoとQED-Nano-SFTモデル、FineProofs-SFTとFineProofs-RLデータセット、トレーニングおよび評価コードを含む、完全なQED-Nanoパイプラインをリリースする。
論文 参考訳(メタデータ) (2026-04-06T17:44:25Z) - Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - LOCA-R: Near-Perfect Performance on the Chinese Physics Olympiad 2025 [3.5580730009417016]
複雑な推論に適応したLOCAフレームワークの改良版であるLOCA-R(LOgical Chain Augmentation for Reasoning)を紹介する。
LOCA-Rは320点中313点をほぼ完全なスコアで達成し、最高成績の人間よりもしっかりと上回っている。
論文 参考訳(メタデータ) (2025-11-13T17:20:46Z) - Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark? [53.76627321546095]
HiPhOは、人間による評価を備えた、高校の物理学オリンピアードのための最初のベンチマークである。
2024年から2025年にかけて13回のオリンピアード試験をコンパイルし、国際大会と地域競技の両方にまたがる。
我々は、(M)LLMとヒトの競技者との直接比較を可能にするため、公式メダル閾値に基づくモデルに金、銀、銅のメダルを割り当てる。
論文 参考訳(メタデータ) (2025-09-09T16:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。