論文の概要: The Reason behind Good or Bad: Towards a Better Mathematical Verifier with Natural Language Feedback
- arxiv url: http://arxiv.org/abs/2406.14024v1
- Date: Thu, 20 Jun 2024 06:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 15:10:05.746836
- Title: The Reason behind Good or Bad: Towards a Better Mathematical Verifier with Natural Language Feedback
- Title(参考訳): 良いか悪いか:自然言語フィードバックによるより良い数学的検証を目指して
- Authors: Bofei Gao, Zefan Cai, Runxin Xu, Peiyi Wang, Ce Zheng, Runji Lin, Keming Lu, Junyang Lin, Chang Zhou, Tianyu Liu, Baobao Chang,
- Abstract要約: 自然言語フィードバック強化検証手法である textbfMath-Minos を提案する。
実験の結果,自然言語フィードバックの小さなセット(30k)が検証器の性能を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 66.13758472403698
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Mathematical verfier achieves success in mathematical reasoning tasks by validating the correctness of solutions. However, existing verifiers are trained with binary classification labels, which are not informative enough for the model to accurately assess the solutions. To mitigate the aforementioned insufficiency of binary labels, we introduce step-wise natural language feedbacks as rationale labels (i.e., the correctness of the current step and the explanations). In this paper, we propose \textbf{Math-Minos}, a natural language feedback enhanced verifier by constructing automatically-generated training data and a two-stage training paradigm for effective training and efficient inference. Our experiments reveal that a small set (30k) of natural language feedbacks can significantly boost the performance of the verifier by the accuracy of 1.6\% (86.6\% $\rightarrow$ 88.2\%) on GSM8K and 0.8\% (37.8\% $\rightarrow$ 38.6\%) on MATH. We will release the code, data and model for reproduction soon.
- Abstract(参考訳): 数学的頂点は、解の正しさを検証することによって数学的推論タスクで成功する。
しかし、既存の検証器はバイナリ分類ラベルで訓練されているため、モデルが解を正確に評価するのに十分な情報がない。
上記の2進ラベルの不十分さを軽減するため、段階的な自然言語フィードバックを有理ラベル(現在のステップの正しさと説明文)として導入する。
本稿では,自動生成したトレーニングデータと,効果的なトレーニングと効率的な推論のための2段階トレーニングパラダイムを構築することで,自然言語フィードバックの強化された検証手法である「textbf{Math-Minos}」を提案する。
実験の結果,GSM8Kでは 1.6 % (86.6 % $\rightarrow$88.2 %) ,MATHでは 0.8 % (37.8 % $\rightarrow$38.6 %) の精度で検証器の性能を大幅に向上させることができることがわかった。
もうすぐ、再生のためのコード、データ、モデルをリリースします。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Prover-Verifier Games improve legibility of LLM outputs [12.532113917099885]
小学校数学の問題を解く上での妥当性について検討する。
本稿では,Anil et al の Prover-Verifier Game にヒントを得たトレーニングアルゴリズムを提案する。
本研究は,解の正当性を検証することを目的とした,時間制約のある人間への正当性訓練の伝達を示す。
論文 参考訳(メタデータ) (2024-07-18T16:58:18Z) - Token-Supervised Value Models for Enhancing Mathematical Reasoning Capabilities of Large Language Models [35.29961848648335]
大規模言語モデル(LLM)は、ステップバイステップの推論チェーンを通じて、数学における顕著な問題解決能力を実証している。
それらは、その後の推論チェーンの品質や、自己回帰的なトークン・バイ・トーケン生成の性質による最終回答に影響を及ぼすエラーの推論に影響を受けやすい。
近年の研究では、推論経路の生成を導くために外部検証器の採用が提案されているが、既存の研究はステップバイステップラベルで訓練されたモデルを利用している。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - Label-Descriptive Patterns and their Application to Characterizing
Classification Errors [31.272875287136426]
最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。
これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。
本稿では,予測の正しさに応じて分割された入力データを簡潔に記述するパターンの小さなセットをマイニングすることにより,任意の分類器に対して,任意の分類を行うことができる手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T19:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。