論文の概要: OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification
- arxiv url: http://arxiv.org/abs/2512.10756v1
- Date: Thu, 11 Dec 2025 15:47:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.45352
- Title: OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification
- Title(参考訳): OPV: 有効長鎖検証のためのアウトカムベースプロセス検証器
- Authors: Zijian Wu, Lingkai Kong, Wenwei Zhang, Songyang Gao, Yuzhe Gu, Zhongrui Cai, Tianyou Ma, Yuhong Liu, Zhi Wang, Runyuan Ma, Guangyu Wang, Wei Li, Conghui He, Dahua Lin, Kai Chen,
- Abstract要約: 本稿では、長い思考の連鎖から要約された結果の合理化過程を検証する、アウトカムベースプロセス検証(OPV)を提案する。
OPV は 76.3 と比較して F1 スコアが 83.1 の Qwen3-Max-Preview など,はるかに大きなオープンソースモデルよりも優れています。
- 参考スコア(独自算出の注目度): 91.15649744496834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out OPV-Bench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2% to 73.3% on AIME2025 as the compute budget scales.
- Abstract(参考訳): 大規模言語モデル (LLM) は、Reinforcement Learning with Verifiable Rewards (RLVR) による複雑な推論タスクの解決において大きな進歩を遂げている。
この進歩は、信頼性の高い検証者によって自動化された監視とは分離できない。
しかし、現在の結果に基づく検証器(OVs)は、長い推論連鎖(CoTs)における信頼できない中間段階を検査できない。
一方、現行のプロセスベース検証器(PV)は、人間のアノテーションの禁止コストによる高品質なアノテーションの不足により制限され、複雑な長いCoTのエラーを確実に検出することが困難である。
そこで我々は,長いCoTからの要約結果の合理化過程を検証し,正確かつ効率的な検証と大規模アノテーションの実現を可能にする,アウトカムベースプロセス検証(OPV)を提案する。
提案手法を有効活用するために,専門家アノテーションを用いた反復型能動的学習フレームワークを導入し,より少ないアノテーションコストでOPVの検証能力を向上させる。
具体的には、各イテレーションにおいて、現在の最高のOPVの最も不確実なケースは注釈付けされ、次に次のラウンドでRejection Fine-Tuning (RFT)とRLVRを通じて新しいOPVを訓練するために使用される。
大規模な実験は、OPVの優れた性能と幅広い適用性を示している。
76.3と比較すると、Qwen3-Max-Previewのようなはるかに大きなオープンソースモデルよりも、F1スコアが83.1である。
さらに、OPVは、専門家評価と密接に一致して、合成データセット内の偽陽性を効果的に検出する。
OPVは政策モデルと共同で、例えばDeepSeek-R1-Distill-Qwen-32B の精度を AIME2025 で 55.2% から 73.3% に向上させる。
関連論文リスト
- PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - Segmental Advantage Estimation: Enhancing PPO for Long-Context LLM Training [17.530233901658253]
セグメンショナルアドバンテージ推定は、一般化アドバンテージ推定が検証されたリワードを用いた強化学習において生じるバイアスを緩和する。
SAEは、最終的なスコア、安定性、サンプル効率を著しく改善し、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-12T08:41:47Z) - Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
我々はtextbfOutcome ベースの textbfProcess textbfVerifier (OPV) を提案する。
OPVは、長いCoTからの要約結果の合理的なプロセスを検証することで、正確かつ効率的な検証を実現する。
76.3と比較して、Qwen3-Max-Previewのようなはるかに大きなオープンソースモデルよりも、F1スコアが83.1である。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Attention [33.03212783462742]
本報告では,Top-k$アテンション機構の有効性と理論的メカニズムについて予備検討する。
実験によると、Top-k$ Decodingはダウンストリームタスクに匹敵する、あるいは超えるパフォーマンスを実現している。
正確なTop-k$Atentionの計算複雑性を考慮すると、Top-k$アルゴリズムの精度が下流タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2025-12-03T06:44:02Z) - HyPV-LEAD: Proactive Early-Warning of Cryptocurrency Anomalies through Data-Driven Structural-Temporal Modeling [0.0]
異常な暗号通貨取引は、金融の整合性にリスクをエスカレートさせる。
既存のアプローチは主にモデル中心であり、ポストホックである。
本稿では,データ駆動早期警告フレームワークHyPV-LEADを紹介する。
論文 参考訳(メタデータ) (2025-09-03T12:23:38Z) - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文 参考訳(メタデータ) (2025-04-07T14:21:11Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。