論文の概要: Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning
- arxiv url: http://arxiv.org/abs/2410.12608v2
- Date: Tue, 17 Dec 2024 06:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 17:09:38.246819
- Title: Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning
- Title(参考訳): 検証者としてのプログラムは、数学推論のための言語モデルの自己整合性を改善する
- Authors: Vernon Y. H. Toh, Deepanway Ghosal, Soujanya Poria,
- Abstract要約: 本稿では,自然言語から派生した翻訳プログラムを検証メカニズムとして活用するフレームワークであるProveを紹介する。
バニラ多数決とは異なり、我々の手法は、対応するプログラム出力が生成した解と矛盾する解をフィルタリングし、検証に合格する解のみを集約する。
以上の結果から,すべてのモデルサイズとデータセットにまたがる数学的推論タスクの解決において,Proveはバニラ多数投票を一貫して上回る結果となった。
- 参考スコア(独自算出の注目度): 24.386388107656334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have shown increasing competence in solving mathematical reasoning problems. However, many open-source LLMs still struggle with errors in calculation and semantic understanding during intermediate reasoning steps. In this work, we introduce Prove, a simple yet effective framework that leverages translated programs derived from natural language solutions as a verification mechanism to filter out potentially incorrect reasoning paths before aggregating final answers. Unlike vanilla majority voting, our approach filters out solutions whose corresponding program output is inconsistent with the generated solution, aggregating only those that pass verification. We conducted extensive experiments using 13 open-source LLMs from various model families and sizes, ranging from 0.5B to 13B parameters, across eight mathematical benchmarks. Our results show that Prove consistently outperforms vanilla majority voting as a heuristic for solving mathematical reasoning tasks across all model sizes and datasets, achieving improvements of up to 18% on GSM8K and 8% on MATH-500. Our codes are available at https://github.com/declare-lab/prove.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論問題を解く能力の増大を示している。
しかし、多くのオープンソースLLMは、中間推論段階における計算と意味理解の誤りに苦慮している。
本稿では,自然言語から派生した翻訳プログラムを検証メカニズムとして活用し,最終回答を集約する前に,潜在的に誤った推論経路をフィルタリングする,シンプルで効果的なフレームワークであるProveを紹介する。
バニラ多数決とは異なり、我々の手法は、対応するプログラム出力が生成した解と矛盾する解をフィルタリングし、検証に合格する解のみを集約する。
我々は, 0.5B から 13B のパラメータを8つの数学ベンチマークで比較し, 様々なモデルファミリおよびサイズから13個のオープンソース LLM を用いて広範囲に実験を行った。
結果は,すべてのモデルサイズとデータセットの数学的推論タスクの解法としてバニラ多数投票を一貫して上回り,GSM8Kでは最大18%,MATH-500では8%の改善が達成された。
私たちのコードはhttps://github.com/declare-lab/prove.comで公開されています。
関連論文リスト
- UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models [11.964085209696051]
UGMathBenchは16の被験者5,062の課題と111のトピックで構成され、10の異なる回答タイプが特徴である。
それぞれの問題には3つのランダム化バージョンが含まれており、主要なオープンソース LLM が UGMathBench で飽和するにつれて、リリースに向けて追加バージョンが計画されている。
LLMを23個評価した結果, OpenAI-o1-mini による EAcc のロバスト性は 56.3% であり,それぞれ異なるモデルで大きな$Delta$値が観測された。
論文 参考訳(メタデータ) (2025-01-23T15:46:43Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Don't Trust: Verify -- Grounding LLM Quantitative Reasoning with Autoformalization [45.439933713342256]
大規模言語モデル(LLM)は、数学的な量的推論問題を解く能力がますます高まっている。
LLMのトレーニングコーパスが十分に多くの形式数学の例を含むなら、それらが形式的イザベル符号に翻訳するように促すことができるという事実を活用する。
これは、形式化されたバージョンが内部や形式化された問題ステートメントと矛盾するソリューションを自動的に拒否するメカニズムを提供する。
論文 参考訳(メタデータ) (2024-03-26T22:01:13Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Orca-Math: Unlocking the potential of SLMs in Grade School Math [10.206509967833664]
最近の研究では、GSM8Kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは、34億のパラメータであると仮定されている。
より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。
エージェントが協調してデータを作成するマルチエージェントセットアップを使用して、200Kの数学問題の高品質な合成データセットを作成する。
論文 参考訳(メタデータ) (2024-02-16T23:44:38Z) - MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language
Models [64.70153487607172]
言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。
自然言語の推論に関しては、いまだに幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。
近年の研究では、フィードバックによる自己改善によるLMの強化に焦点が当てられている。
本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。
論文 参考訳(メタデータ) (2023-10-19T02:32:39Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。