論文の概要: Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning
- arxiv url: http://arxiv.org/abs/2410.12608v1
- Date: Wed, 16 Oct 2024 14:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:36.744613
- Title: Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning
- Title(参考訳): 検証者としてのプログラムは、数学推論のための言語モデルの自己整合性を改善する
- Authors: Vernon Y. H. Toh, Deepanway Ghosal, Soujanya Poria,
- Abstract要約: 本稿では,プログラムベースの検証を用いて,潜在的に誤った推論経路をフィルタリングするPROVEを提案する。
バニラ多数決に頼る代わりに、我々の手法は、対応するプログラム出力が生成された解と矛盾する解を拒絶する。
PROVEは、すべてのデータセットとモデルサイズにわたる数学的推論タスクを解決するために、バニラ投票を一貫して上回っている。
- 参考スコア(独自算出の注目度): 24.386388107656334
- License:
- Abstract: Large language models (LLMs) have shown increasing proficiency in solving mathematical reasoning problems. However, many current open-source LLMs often still make calculation and semantic understanding errors in their intermediate reasoning steps. In this work, we propose PROVE, a simple yet effective framework that uses program-based verification as a heuristic to filter out potentially incorrect reasoning paths before aggregating the final answers. Instead of relying on vanilla majority voting, our approach rejects solutions whose corresponding program outputs are inconsistent with the generated solution, aggregating only those validated by Python programs. We conducted extensive experiments on 13 open-source LLMs from various model families and sizes, ranging from 0.5B to 13B parameters, across seven math benchmarks. We demonstrate that PROVE consistently outperforms vanilla majority voting as a heuristic for solving mathematical reasoning tasks across all datasets and model sizes. Notably, PROVE increases accuracy on the GSM8K benchmark from 48.85% to 53.83% for Qwen2-0.5B-Instruct, from 65.66% to 73.01% for Llama-3.2-1B-Instruct, from 73.39% to 79.61% for Gemma-2-2b-it, and from 41.32% to 59.51% for Llama-2-7B-chat. Our codes are available at https://github.com/declare-lab/prove.
- Abstract(参考訳): 大規模言語モデル (LLM) は、数学的推論問題を解く能力が向上していることを示している。
しかし、現在のオープンソースLLMの多くは、その中間的推論ステップで計算と意味理解の誤りを犯すことが多い。
本稿では,プログラムベースの検証をヒューリスティックとして用いて,最終回答を集約する前に,潜在的に誤った推論経路をフィルタリングする,シンプルで効果的なフレームワークであるPROVEを提案する。
バニラ多数決に頼る代わりに、我々の手法は、対応するプログラム出力が生成されたソリューションと矛盾するソリューションを拒絶し、Pythonプログラムで検証されたもののみを集約する。
7つのベンチマークで, 0.5B から 13B まで, 様々なモデルファミリおよびサイズから, 13 個のオープンソース LLM について広範囲に実験を行った。
PROVEは、すべてのデータセットとモデルサイズで数学的推論タスクを解くためのヒューリスティックとして、バニラ多数投票を一貫して上回っていることを実証する。
特に、GSM8Kベンチマークの精度は、Qwen2-0.5B-インストラクトの48.85%から53.83%、Llama-3.2-1B-インストラクトの65.66%から73.01%、Gemma-2-2b-itの73.39%から79.61%、Llama-2-7B-インストラクトの41.32%から59.51%に向上した。
私たちのコードはhttps://github.com/declare-lab/prove.comで公開されています。
関連論文リスト
- Orca-Math: Unlocking the potential of SLMs in Grade School Math [10.206509967833664]
最近の研究では、GSM8Kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは、34億のパラメータであると仮定されている。
より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。
エージェントが協調してデータを作成するマルチエージェントセットアップを使用して、200Kの数学問題の高品質な合成データセットを作成する。
論文 参考訳(メタデータ) (2024-02-16T23:44:38Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。