論文の概要: Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving
- arxiv url: http://arxiv.org/abs/2512.10739v2
- Date: Fri, 12 Dec 2025 04:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:29.199872
- Title: Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving
- Title(参考訳): オリンピック・レベル数学問題解決のためのロングホライゾン推論剤
- Authors: Songyang Gao, Yuzhe Gu, Zijian Wu, Lingkai Kong, Wenwei Zhang, Zhongrui Cai, Fan Zheng, Tianyou Ma, Junhao Shen, Haiteng Zhao, Duanyang Zhang, Huilun Zhang, Kuikun Liu, Chengqi Lyu, Yanhui Duan, Chiyu Chen, Ningsheng Ma, Jianfei Gao, Han Lyu, Dahua Lin, Kai Chen,
- Abstract要約: 本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
- 参考スコア(独自算出の注目度): 65.02106674311908
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Reasoning Models (LRMs) have expanded the mathematical reasoning frontier through Chain-of-Thought (CoT) techniques and Reinforcement Learning with Verifiable Rewards (RLVR), capable of solving AIME-level problems. However, the performance of LRMs is heavily dependent on the extended reasoning context length. For solving ultra-hard problems like those in the International Mathematical Olympiad (IMO), the required reasoning complexity surpasses the space that an LRM can explore in a single round. Previous works attempt to extend the reasoning context of LRMs but remain prompt-based and built upon proprietary models, lacking systematic structures and training pipelines. Therefore, this paper introduces Intern-S1-MO, a long-horizon math agent that conducts multi-round hierarchical reasoning, composed of an LRM-based multi-agent system including reasoning, summary, and verification. By maintaining a compact memory in the form of lemmas, Intern-S1-MO can more freely explore the lemma-rich reasoning spaces in multiple reasoning stages, thereby breaking through the context constraints for IMO-level math problems. Furthermore, we propose OREAL-H, an RL framework for training the LRM using the online explored trajectories to simultaneously bootstrap the reasoning ability of LRM and elevate the overall performance of Intern-S1-MO. Experiments show that Intern-S1-MO can obtain 26 out of 35 points on the non-geometry problems of IMO2025, matching the performance of silver medalists. It also surpasses the current advanced LRMs on inference benchmarks such as HMMT2025, AIME2025, and CNMO2025. In addition, our agent officially participates in CMO2025 and achieves a score of 102/126 under the judgment of human experts, reaching the gold medal level.
- Abstract(参考訳): 大規模推論モデル(LRM)は、AIMEレベルの問題を解決することができるChain-of-Thought(CoT)技術とReinforcement Learning with Verifiable Rewards(RLVR)を通じて、数学的推論フロンティアを拡張した。
しかし、LRMの性能は、拡張された推論コンテキスト長に大きく依存している。
IMO(International Mathematical Olympiad)のような超硬度問題を解くために、要求される推論の複雑さは、LEMが単一のラウンドで探索できる空間を超える。
以前の作業では、LEMの推論コンテキストを拡張しようとしたが、プロプライエタリなモデルに基づいて、体系的な構造やトレーニングパイプラインが欠如している。
そこで本稿では,LRMに基づくマルチエージェントシステムであるIntern-S1-MOを提案する。
コンパクトメモリを補題の形で維持することにより、Intern-S1-MOは複数の推論段階における補題に富んだ推論空間をより自由に探索し、IMOレベルの数学問題に対する文脈制約を突破することができる。
さらに、オンライン探索トラジェクトリを用いてLEMをトレーニングするRLフレームワークであるOREAL-Hを提案し、LEMの推論能力を同時にブートストラップし、インターンS1-MOの全体的な性能を向上させる。
実験により、インターンS1-MOは、IMO2025の非幾何学的問題に関して35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することを示した。
また、HMMT2025、AIME2025、CNMO2025などの推論ベンチマークでは、現在の先進的なLEMを超えている。
また、我々のエージェントはCMO2025に正式に参加し、人間の専門家の判断で102/126のスコアを獲得し、金メダルレベルに達した。
関連論文リスト
- OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification [91.15649744496834]
本稿では、長い思考の連鎖から要約された結果の合理化過程を検証する、アウトカムベースプロセス検証(OPV)を提案する。
OPV は 76.3 と比較して F1 スコアが 83.1 の Qwen3-Max-Preview など,はるかに大きなオープンソースモデルよりも優れています。
論文 参考訳(メタデータ) (2025-12-11T15:47:38Z) - A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Attention [33.03212783462742]
本報告では,Top-k$アテンション機構の有効性と理論的メカニズムについて予備検討する。
実験によると、Top-k$ Decodingはダウンストリームタスクに匹敵する、あるいは超えるパフォーマンスを実現している。
正確なTop-k$Atentionの計算複雑性を考慮すると、Top-k$アルゴリズムの精度が下流タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2025-12-03T06:44:02Z) - Efficiency vs. Fidelity: A Comparative Analysis of Diffusion Probabilistic Models and Flow Matching on Low-Resource Hardware [0.0]
Denoising Diffusion Probabilistic Models (DDPMs) は、生成画像合成における新しい最先端技術を確立した。
本研究では,新たなフローマッチングパラダイムに対するDDPMの比較分析を行った。
論文 参考訳(メタデータ) (2025-11-24T18:19:42Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。
この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。
本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文 参考訳(メタデータ) (2025-06-11T05:33:56Z) - A Novel Generative Model with Causality Constraint for Mitigating Biases in Recommender Systems [20.672668625179526]
遅延共起バイアスは、ユーザのフィードバックとアイテムの露出の間の真の因果関係を曖昧にする可能性がある。
本稿では,Recommender Systemsにおける表現学習のための遅延因果制約(Latent Causality Constraints)と呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:09:39Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Global Optimization of Objective Functions Represented by ReLU Networks [77.55969359556032]
ニューラルネットワークは複雑で非敵対的な関数を学ぶことができ、安全クリティカルな文脈でそれらの正しい振る舞いを保証することは困難である。
ネットワーク内の障害を見つけるための多くのアプローチ(例えば、敵の例)があるが、これらは障害の欠如を保証できない。
本稿では,最適化プロセスを検証手順に統合し,本手法よりも優れた性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T08:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。