論文の概要: On Learning Verifiers for Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2505.22650v1
- Date: Wed, 28 May 2025 17:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.789975
- Title: On Learning Verifiers for Chain-of-Thought Reasoning
- Title(参考訳): パターン・オブ・ソート推論のための学習検証器について
- Authors: Maria-Florina Balcan, Avrim Blum, Zhiyuan Li, Dravyansh Sharma,
- Abstract要約: チェーン・オブ・ソート推論は、複雑な数学的および論理的問題を解くための強力なアプローチとして現れている。
しばしば、誤ったまたは根拠のない推論を通じて、トラックを走行することができる。
現在、LSMは複雑な問題を形式的に解くのに十分ではない。
- 参考スコア(独自算出の注目度): 36.21056381896508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought reasoning has emerged as a powerful approach for solving complex mathematical and logical problems. However, it can often veer off track through incorrect or unsubstantiated inferences. Formal mathematical reasoning, which can be checked with a formal verifier, is one approach to addressing this issue. However, currently LLMs are simply not good enough to solve complex problems in a formal way, and even just formalizing an informal problem statement can be challenging. Motivated by this fact, in this work we consider the problem of learning reliable verifiers for natural language Chain-of-Thought reasoning. That is, given a problem statement and step-by-step solution in natural language, the aim of the verifier is to output [Yes] if the reasoning steps in the solution are all valid, and [No] otherwise. In this work we give a formal PAC-learning framework for studying this problem. We propose and analyze several natural verification goals, at different levels of strength, in this framework. We provide sample complexity upper-bounds for learning verifiers satisfying these goals, as well as lower-bound and impossibility results for learning other natural verification objectives without additional assumptions.
- Abstract(参考訳): チェーン・オブ・ソート推論は、複雑な数学的および論理的問題を解くための強力なアプローチとして現れている。
しかし、誤ったまたは根拠のない推論を通じて、しばしば軌道を走行することができる。
形式的数学的推論は、形式的検証器でチェックできるが、この問題に対処するためのアプローチの1つである。
しかし、現在のLSMは複雑な問題を形式的に解くのに十分ではないため、非公式な問題文を形式化するだけでも困難である。
この事実に動機づけられた本研究では、自然言語のChain-of-Thought推論に対する信頼性検証の学習問題を考察する。
すなわち、自然言語における問題文とステップバイステップの解が与えられた場合、検証者の目的は、ソリューションの推論ステップがすべて有効でなければ、[Yes]を出力することである。
本研究では、この問題を研究するための公式なPAC学習フレームワークを提供する。
本フレームワークでは,異なるレベルの強度で,いくつかの自然な検証目標を提案し,分析する。
本研究は,これらの目標を満たす学習検証者に対して,さらに仮定を伴わずに,他の自然検証対象を学習するための低境界および非可視性結果を示す。
関連論文リスト
- Learning to Reason via Mixture-of-Thought for Logical Reasoning [56.24256916896427]
Mixture-of-Thought (MoT) は、LLMが自然言語、コード、真理表の3つの相補的なモダリティにまたがる推論を可能にするフレームワークである。
MoT は,(1) 自己進化型 MoT トレーニング,(2) 3 つのモーダルの相乗効果を完全に活用してより良い予測を生成する MoT 推論,という2段階の設計を採用する。
論文 参考訳(メタデータ) (2025-05-21T17:59:54Z) - Think When You Need: Self-Adaptive Chain-of-Thought Learning [20.22448368125018]
思考の連鎖(CoT)推論は言語モデルの性能を高めるが、単純な問題では非効率な「過剰思考」につながることが多い。
推論長を直接罰する既存の手法は、様々な問題の複雑さを考慮に入れない。
提案手法は,解の正しさと簡潔さを両立させる理論的な仮定によって導かれる,長さと品質の比較を通じて報酬を構成する。
論文 参考訳(メタデータ) (2025-04-04T07:34:01Z) - Instantiation-based Formalization of Logical Reasoning Tasks using Language Models and Logical Solvers [4.897782942277061]
本稿では,SSV(Semantic Self-Verification)を導入し,自然言語から解法の形式言語への推論問題を正確に定式化する手法を提案する。
SSVは一貫性に基づくアプローチを用いて、モデルによって生成され、解決者によって検証される具体的なインスタンス化を用いて、問題の強力な抽象的な形式化を生成する。
このような*ほぼ確実な推論*は、多くの場合、手動検証の必要性を減らすための新しいアプローチとして提案され、より信頼性が高く自律的なAI推論システムに近づきます。
論文 参考訳(メタデータ) (2025-01-28T14:04:49Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - LAMBADA: Backward Chaining for Automated Reasoning in Natural Language [11.096348678079574]
LAMBADAと呼ばれる逆チェインアルゴリズムは、推論を4つのサブモジュールに分解する。
LAMBADAは最先端のフォワード推論手法よりも精度が向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。