論文の概要: STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision
- arxiv url: http://arxiv.org/abs/2605.19338v1
- Date: Tue, 19 May 2026 04:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.116746
- Title: STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision
- Title(参考訳): STAR-PólyaMath: Persistent Meta-Strategic Supervisionの下でのマルチエージェント推論
- Authors: Jiaao Wu, Xian Zhang, Hanzhang Liu, Sophia Zhang, Fan Yang, Yinpeng Dong,
- Abstract要約: 拡張された長距離推論のためのマルチエージェントフレームワークSTAR-PlyaMathを紹介する。
STAR-PlyaMathは、ネストしたチャレンジ・ステップ・リプランループを備えたステートマシンとして構成されている。
8つのトップクラスのベンチマークで完全なスコアを達成します。
- 参考スコア(独自算出の注目度): 25.371500356523896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier AI models and multi-agent systems have led to significant improvements in mathematical reasoning. However, for problems requiring extended, long-horizon reasoning, existing systems continue to suffer from fundamental reliability issues: hallucination accumulation, memory fragmentation, and imbalanced reasoning-tool trade-offs. In this paper, we introduce STAR-PólyaMath, a multi-agent framework that systematically addresses these challenges through meta-level supervision and structured Reasoner-Verifier interaction. STAR-PólyaMath is structured as an orchestrated state machine with nested challenge-step-replan loops, governed by a reasoning-free Python orchestrator that separates control from inference and bounds error propagation through trace-back and re-planning. Our key innovation is a persistent Meta-Strategist that maintains cross-attempt memory and exercises meta-level control by issuing high-level strategic guidance or mandatory directives, so the system can escape unproductive loops rather than stagnate or over-rely on tools. STAR-PólyaMath achieves state-of-the-art results on all eight top-tier competition benchmarks: AIME 2025-2026, MathArena Apex Shortlist, MathArena Apex 2025, Putnam 2025, IMO 2025, HMMT February 2026, and USAMO 2026. It obtains perfect scores on AIMEs, Putnam, and HMMT, and shows its largest margin on Apex 2025, scoring 93.75% compared with 80.21% by the strongest baseline GPT-5.5. Ablation studies show that the gains arise from the framework's orchestration rather than from model-level diversity since removing key components or substituting in mixed backbones consistently weakens performance. Code is available at https://github.com/Julius-Woo/STAR-PolyaMath.
- Abstract(参考訳): フロンティアAIモデルとマルチエージェントシステムは、数学的推論に大きな改善をもたらした。
しかし、長期にわたる推論を必要とする問題に対して、既存のシステムは幻覚の蓄積、記憶の断片化、不均衡な推論とツールのトレードオフといった根本的な信頼性の問題に悩まされ続けている。
本稿では,メタレベルの監視と構造化されたReasoner-Verifierインタラクションを通じて,これらの課題に体系的に対処するマルチエージェントフレームワークSTAR-PólyaMathを紹介する。
STAR-PólyaMathは、ネストしたチャレンジ-ステップ-リプランループを備えたオーケストレートステートマシンとして構成されており、推論から制御を分離し、トレースバックと再計画を通じてエラーの伝搬をバウンドする推論自由なPythonオーケストレータによって管理されている。
私たちの重要なイノベーションは、メタストラテジスト(Meta-Strategist)という永続的なメモリを維持し、ハイレベルな戦略的ガイダンスや強制的な指示を発行することで、メタレベルの制御を実行することで、ツールの停滞や過剰ではなく、非生産的なループを回避できます。
STAR-PólyaMathは、AIME 2025-2026、MathArena Apex Shortlist、MathArena Apex 2025、Patnam 2025、IMO 2025、HMMT February 2026、USAMO 2026の8つの上位競合ベンチマークで最先端の結果を得た。
AIMEs、Putnam、HMMTで完全スコアを獲得し、Apex 2025では最強のベースラインであるGPT-5.5の80.21%に対して93.75%を記録した。
アブレーション研究は、キーコンポーネントを取り除いたり、混合バックボーンに置換することで、モデルレベルの多様性ではなく、フレームワークのオーケストレーションによって得られる利益が、パフォーマンスを一貫して弱めることを示している。
コードはhttps://github.com/Julius-Woo/STAR-PolyaMathで入手できる。
関連論文リスト
- Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling [108.48818215929494]
訓練後,背骨を厳密なオリンピックレベル解法に変換するためのシンプルで統一的なレシピを紹介した。
約340Kのサブ8K軌道上でSFTで30B-A3Bのバックボーンをトレーニングし,200RLステップを行った。
結果として得られるモデル SU-01 は、100Kトークンを超える軌道上の難しい問題に対する安定な推論をサポートする。
論文 参考訳(メタデータ) (2026-05-13T10:13:26Z) - RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision [15.319195064020393]
ネモトロン・マス(Nemotron-Math)は、7.5Mの解トレースを含む大規模な数学的推論データセットである。
このデータセットは、AoPSのキュレートされた85K問題と、262KコミュニティソースのStackExchange-Math問題を統合する。
Nemotron-Mathは、マッチしたAoPS問題において、オリジナルのOpenMathingよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-12-17T14:37:41Z) - Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - KompeteAI: Accelerated Autonomous Multi-Agent System for End-to-End Pipeline Generation for Machine Learning Problems [36.17807193758863]
KompeteAIは、動的ソリューション空間探索を備えた新しいAutoMLフレームワークである。
我々は動的ソリューション空間探索を備えた新しいAutoMLフレームワークであるKompeteAIを紹介する。
我々は,MLE-Benchにおける制約に対応するために,Kompete-benchを提案する。
論文 参考訳(メタデータ) (2025-08-13T20:29:56Z) - MathArena: Evaluating LLMs on Uncontaminated Math Competitions [4.655668424508813]
MathArenaは、大きな言語モデル(LLM)を評価するための新しいベンチマークである。
繰り返し行われる数学コンペは、高品質で困難な問題のストリームを提供する。
MathArenaは、証明書込み機能の最初のベンチマークでもある。
論文 参考訳(メタデータ) (2025-05-29T09:28:06Z) - MetaScale: Test-Time Scaling with Evolving Meta-Thoughts [51.35594569020857]
実験の結果、MetaScaleは標準推論アプローチよりも一貫して優れています。
METASCALEは、サンプリング予算を増やしてより効果的にスケールし、より構造化された専門家レベルのレスポンスを生成する。
論文 参考訳(メタデータ) (2025-03-17T17:59:54Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。