Fugu-MT 論文翻訳(概要): Online Learnability of Chain-of-Thought Verifiers: Soundness and Completeness Trade-offs

論文の概要: Online Learnability of Chain-of-Thought Verifiers: Soundness and Completeness Trade-offs

arxiv url: http://arxiv.org/abs/2603.03538v1
Date: Tue, 03 Mar 2026 21:50:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.099616
Title: Online Learnability of Chain-of-Thought Verifiers: Soundness and Completeness Trade-offs
Title（参考訳）: Chain-of-Thought 検証器のオンライン学習性:健全性と完全性トレードオフ
Authors: Maria-Florina Balcan, Avrim Blum, Kiriaki Fragkia, Zhiyuan Li, Dravyansh Sharma,
Abstract要約: 連鎖検証を学習するためのオンライン学習フレームワークを提案する。学習した検証器は、弱い証明者の集合の精度を高めるためにどのように使用できるかを示す。
参考スコア（独自算出の注目度）: 34.168578803480116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models with chain-of-thought generation have demonstrated great potential for producing complex mathematical proofs. However, their reasoning can often go astray, leading to increasing interest in formal and learned verifiers. A major challenge in learning verifiers, especially when their output will be used by the prover, is that this feedback loop may produce substantial distribution shift. Motivated by this challenge, we propose an online learning framework for learning chain-of-thought verifiers that, given a problem and a sequence of reasoning steps, check the correctness of the solution. Highlighting the asymmetric role of soundness (failure in catching errors in a proof) and completeness (flagging correct proofs as wrong) mistakes of the verifier, we introduce novel extensions of the Littlestone dimension which tightly characterize the mistake bounds for learning a verifier in the realizable setting. We provide optimal algorithms for finding the Pareto-frontier (the smallest total number of mistakes given a budget of soundness mistakes) as well as minimizing a linear combination of asymmetric costs. We further show how our learned verifiers can be used to boost the accuracy of a collection of weak provers, and enable generation of proofs beyond what they were trained on. With the mild assumption that one of the provers can generate the next reasoning step correctly with some minimal probability, we show how to learn a strong prover with small error and abstention rates.
Abstract（参考訳）: 連鎖生成を持つ大規模言語モデルは、複雑な数学的証明を生み出す大きな可能性を示している。しかし、それらの推論はしばしば混乱し、形式的で学習された検証者への関心が高まる。検証器の学習における大きな課題は、特にその出力が証明者によって使用される場合、このフィードバックループがかなりの分布シフトをもたらす可能性があることである。この課題に触発されたオンライン学習フレームワークは,問題と推論ステップの順序を考慮し,解の正しさを確認する。検証器の非対称性(証明における誤りの捕捉に失敗する)と完全性(誤りとして正しい証明をフラッグする)の誤りを強調し、検証器を現実的に学習するための誤り境界を強く特徴づけるリトルストーン次元の新たな拡張を導入する。我々は,不斉コストの線形結合を最小限に抑えるとともに,パレートフロンティア(音質上の誤りの予算が与えられた最小の誤り数)を見つけるための最適アルゴリズムを提供する。さらに、学習した検証器が、弱い証明者の集合の精度を高めるためにどのように使用できるかを示し、訓練されたことを超えて証明の生成を可能にする。確率が最小限の確率で次の推論ステップを正しく生成できるという軽微な仮定により、少ない誤差と断続率の強い証明器をいかに学習するかを示す。

関連論文リスト

Proof-RM: A Scalable and Generalizable Reward Model for Math Proof [67.53066972145183]
大規模言語モデル(LLM)は,*検証リワード*(RLVR)を用いた強化学習を通じて,強力な数学推論能力を示した。多くの先進的な数学的問題は証明ベースであり、単純な解マッチングによって証明の真性を決定するための保証された方法はない。自動検証を実現するには、完全な証明プロセスを確実に評価できるリワードモデル(RM)が必要である。
論文参考訳（メタデータ） (2026-02-02T17:42:53Z)
Scaling Generative Verifiers For Natural Language Mathematical Proof Verification And Selection [42.21636315733425]
大規模言語モデルは、最終解答問題において顕著な成功を収めた。しかし、これらのソリューションの根底にある理由はしばしば欠陥がある。モデル性能のより信頼性の高い尺度を得るために,証明ベースと最終回答推論の両方を評価した。
論文参考訳（メタデータ） (2025-11-17T06:25:35Z)
Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文参考訳（メタデータ） (2025-10-03T16:21:14Z)
Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文参考訳（メタデータ） (2025-09-05T16:40:13Z)
Think When You Need: Self-Adaptive Chain-of-Thought Learning [20.22448368125018]
思考の連鎖(CoT)推論は言語モデルの性能を高めるが、単純な問題では非効率な「過剰思考」につながることが多い。推論長を直接罰する既存の手法は、様々な問題の複雑さを考慮に入れない。提案手法は,解の正しさと簡潔さを両立させる理論的な仮定によって導かれる,長さと品質の比較を通じて報酬を構成する。
論文参考訳（メタデータ） (2025-04-04T07:34:01Z)
On the Query Complexity of Verifier-Assisted Language Generation [35.43462431990329]
本研究では,事前学習した言語モデル生成器を用いて制約付き生成を推論するフレームワークを開発する。検証者へのアクセスは、難解な問題(情報理論上または計算上)を、難解な問題にレンダリングすることができる。トークンワイド・リジェクション・サンプリングのような単純なアルゴリズムでさえ、検証器へのアクセスによる大きなメリットを享受できることを示す。
論文参考訳（メタデータ） (2025-02-17T18:46:32Z)
Distribution Learning with Valid Outputs Beyond the Worst-Case [25.788559173418363]
妥当性に制約のある分布学習は、学習された分布が、空間の無効な部分において、その質量の確率的に小さな部分を持つことを要求することによって、この問題に対処しようとする。データ分散がモデルクラスに置かれ、ログロスが最小化されると、妥当性を保証するために必要なサンプルの数は、妥当性要求に弱いことが示される。
論文参考訳（メタデータ） (2024-10-21T17:56:09Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Prover-Verifier Games improve legibility of LLM outputs [12.532113917099885]
小学校数学の問題を解く上での妥当性について検討する。本稿では,Anil et al の Prover-Verifier Game にヒントを得たトレーニングアルゴリズムを提案する。本研究は,解の正当性を検証することを目的とした,時間制約のある人間への正当性訓練の伝達を示す。
論文参考訳（メタデータ） (2024-07-18T16:58:18Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。提案手法であるPremiseが実際によく動作することを示す。
論文参考訳（メタデータ） (2023-11-18T00:24:26Z)
GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。 GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文参考訳（メタデータ） (2023-05-24T09:16:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。