論文の概要: Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving
- arxiv url: http://arxiv.org/abs/2512.10739v1
- Date: Thu, 11 Dec 2025 15:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.443775
- Title: Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving
- Title(参考訳): オリンピック・レベル数学問題解決のためのロングホライゾン推論剤
- Authors: Songyang Gao, Yuzhe Gu, Zijian Wu, Lingkai Kong, Wenwei Zhang, Zhongrui Cai, Fan Zheng, Tianyou Ma, Junhao Shen, Haiteng Zhao, Duanyang Zhang, Huilun Zhang, Kuikun Liu, Chengqi Lyu, Yanhui Duan, Chiyu Chen, Ningsheng Ma, Jianfei Gao, Han Lyu, Dahua Lin, Kai Chen,
- Abstract要約: 我々はtextbfOutcome ベースの textbfProcess textbfVerifier (OPV) を提案する。
OPVは、長いCoTからの要約結果の合理的なプロセスを検証することで、正確かつ効率的な検証を実現する。
76.3と比較して、Qwen3-Max-Previewのようなはるかに大きなオープンソースモデルよりも、F1スコアが83.1である。
- 参考スコア(独自算出の注目度): 65.02106674311908
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the \textbf{O}utcome-based \textbf{P}rocess \textbf{V}erifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out \textsc{\thisbench}, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2\% to 73.3\% on AIME2025 as the compute budget scales.
- Abstract(参考訳): 大規模言語モデル (LLM) は、Reinforcement Learning with Verifiable Rewards (RLVR) による複雑な推論タスクの解決において大きな進歩を遂げている。
この進歩は、信頼性の高い検証者によって自動化された監視とは分離できない。
しかし、現在の結果に基づく検証器(OVs)は、長い推論連鎖(CoTs)における信頼できない中間段階を検査できない。
一方、現行のプロセスベース検証器(PV)は、人間のアノテーションの禁止コストによる高品質なアノテーションの不足により制限され、複雑な長いCoTのエラーを確実に検出することが困難である。
そこで本研究では,長いCoTからの要約結果の合理化過程を検証し,正確かつ効率的な検証と大規模アノテーションの実現が可能な,textbf{O}utcome-based \textbf{P}rocess \textbf{V}erifier (OPV)を提案する。
提案手法を有効活用するために,専門家アノテーションを用いた反復型能動的学習フレームワークを導入し,より少ないアノテーションコストでOPVの検証能力を向上させる。
具体的には、各イテレーションにおいて、現在の最高のOPVの最も不確実なケースは注釈付けされ、次に次のラウンドでRejection Fine-Tuning (RFT)とRLVRを通じて新しいOPVを訓練するために使用される。
大規模な実験は、OPVの優れた性能と幅広い適用性を示している。
76.3と比較して、Qwen3-Max-Previewのような、はるかに大きなオープンソースモデルよりも優れている。
さらに、OPVは、専門家評価と密接に一致して、合成データセット内の偽陽性を効果的に検出する。
OPVはポリシーモデルと共同で、例えばDeepSeek-R1-Distill-Qwen-32B の精度を AIME2025 で 55.2\% から 73.3\% に向上させる。
関連論文リスト
- OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification [91.15649744496834]
本稿では、長い思考の連鎖から要約された結果の合理化過程を検証する、アウトカムベースプロセス検証(OPV)を提案する。
OPV は 76.3 と比較して F1 スコアが 83.1 の Qwen3-Max-Preview など,はるかに大きなオープンソースモデルよりも優れています。
論文 参考訳(メタデータ) (2025-12-11T15:47:38Z) - A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Attention [33.03212783462742]
本報告では,Top-k$アテンション機構の有効性と理論的メカニズムについて予備検討する。
実験によると、Top-k$ Decodingはダウンストリームタスクに匹敵する、あるいは超えるパフォーマンスを実現している。
正確なTop-k$Atentionの計算複雑性を考慮すると、Top-k$アルゴリズムの精度が下流タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2025-12-03T06:44:02Z) - Efficiency vs. Fidelity: A Comparative Analysis of Diffusion Probabilistic Models and Flow Matching on Low-Resource Hardware [0.0]
Denoising Diffusion Probabilistic Models (DDPMs) は、生成画像合成における新しい最先端技術を確立した。
本研究では,新たなフローマッチングパラダイムに対するDDPMの比較分析を行った。
論文 参考訳(メタデータ) (2025-11-24T18:19:42Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。
この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。
本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文 参考訳(メタデータ) (2025-06-11T05:33:56Z) - A Novel Generative Model with Causality Constraint for Mitigating Biases in Recommender Systems [20.672668625179526]
遅延共起バイアスは、ユーザのフィードバックとアイテムの露出の間の真の因果関係を曖昧にする可能性がある。
本稿では,Recommender Systemsにおける表現学習のための遅延因果制約(Latent Causality Constraints)と呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:09:39Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Global Optimization of Objective Functions Represented by ReLU Networks [77.55969359556032]
ニューラルネットワークは複雑で非敵対的な関数を学ぶことができ、安全クリティカルな文脈でそれらの正しい振る舞いを保証することは困難である。
ネットワーク内の障害を見つけるための多くのアプローチ(例えば、敵の例)があるが、これらは障害の欠如を保証できない。
本稿では,最適化プロセスを検証手順に統合し,本手法よりも優れた性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T08:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。