Fugu-MT 論文翻訳(概要): Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning

論文の概要: Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning

arxiv url: http://arxiv.org/abs/2410.12608v1
Date: Wed, 16 Oct 2024 14:24:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.361394
Title: Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning
Title（参考訳）: 検証者としてのプログラムは、数学推論のための言語モデルの自己整合性を改善する
Authors: Vernon Y. H. Toh, Deepanway Ghosal, Soujanya Poria,
Abstract要約: 本稿では,プログラムベースの検証を用いて,潜在的に誤った推論経路をフィルタリングするPROVEを提案する。バニラ多数決に頼る代わりに、我々の手法は、対応するプログラム出力が生成された解と矛盾する解を拒絶する。 PROVEは、すべてのデータセットとモデルサイズにわたる数学的推論タスクを解決するために、バニラ投票を一貫して上回っている。
参考スコア（独自算出の注目度）: 24.386388107656334
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) have shown increasing proficiency in solving mathematical reasoning problems. However, many current open-source LLMs often still make calculation and semantic understanding errors in their intermediate reasoning steps. In this work, we propose PROVE, a simple yet effective framework that uses program-based verification as a heuristic to filter out potentially incorrect reasoning paths before aggregating the final answers. Instead of relying on vanilla majority voting, our approach rejects solutions whose corresponding program outputs are inconsistent with the generated solution, aggregating only those validated by Python programs. We conducted extensive experiments on 13 open-source LLMs from various model families and sizes, ranging from 0.5B to 13B parameters, across seven math benchmarks. We demonstrate that PROVE consistently outperforms vanilla majority voting as a heuristic for solving mathematical reasoning tasks across all datasets and model sizes. Notably, PROVE increases accuracy on the GSM8K benchmark from 48.85% to 53.83% for Qwen2-0.5B-Instruct, from 65.66% to 73.01% for Llama-3.2-1B-Instruct, from 73.39% to 79.61% for Gemma-2-2b-it, and from 41.32% to 59.51% for Llama-2-7B-chat. Our codes are available at https://github.com/declare-lab/prove.
Abstract（参考訳）: 大規模言語モデル (LLM) は、数学的推論問題を解く能力が向上していることを示している。しかし、現在のオープンソースLLMの多くは、その中間的推論ステップで計算と意味理解の誤りを犯すことが多い。本稿では,プログラムベースの検証をヒューリスティックとして用いて,最終回答を集約する前に,潜在的に誤った推論経路をフィルタリングする,シンプルで効果的なフレームワークであるPROVEを提案する。バニラ多数決に頼る代わりに、我々の手法は、対応するプログラム出力が生成されたソリューションと矛盾するソリューションを拒絶し、Pythonプログラムで検証されたもののみを集約する。 7つのベンチマークで, 0.5B から 13B まで, 様々なモデルファミリおよびサイズから, 13 個のオープンソース LLM について広範囲に実験を行った。 PROVEは、すべてのデータセットとモデルサイズで数学的推論タスクを解くためのヒューリスティックとして、バニラ多数投票を一貫して上回っていることを実証する。特に、GSM8Kベンチマークの精度は、Qwen2-0.5B-インストラクトの48.85%から53.83%、Llama-3.2-1B-インストラクトの65.66%から73.01%、Gemma-2-2b-itの73.39%から79.61%、Llama-2-7B-インストラクトの41.32%から59.51%に向上した。私たちのコードはhttps://github.com/declare-lab/prove.comで公開されています。

関連論文リスト

UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models [11.964085209696051]
UGMathBenchは16の被験者5,062の課題と111のトピックで構成され、10の異なる回答タイプが特徴である。それぞれの問題には3つのランダム化バージョンが含まれており、主要なオープンソース LLM が UGMathBench で飽和するにつれて、リリースに向けて追加バージョンが計画されている。 LLMを23個評価した結果, OpenAI-o1-mini による EAcc のロバスト性は 56.3% であり,それぞれ異なるモデルで大きな$Delta$値が観測された。
論文参考訳（メタデータ） (2025-01-23T15:46:43Z)
Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文参考訳（メタデータ） (2024-11-25T12:44:02Z)
Don't Trust: Verify -- Grounding LLM Quantitative Reasoning with Autoformalization [45.439933713342256]
大規模言語モデル(LLM)は、数学的な量的推論問題を解く能力がますます高まっている。 LLMのトレーニングコーパスが十分に多くの形式数学の例を含むなら、それらが形式的イザベル符号に翻訳するように促すことができるという事実を活用する。これは、形式化されたバージョンが内部や形式化された問題ステートメントと矛盾するソリューションを自動的に拒否するメカニズムを提供する。
論文参考訳（メタデータ） (2024-03-26T22:01:13Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Orca-Math: Unlocking the potential of SLMs in Grade School Math [10.206509967833664]
最近の研究では、GSM8Kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは、34億のパラメータであると仮定されている。より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。エージェントが協調してデータを作成するマルチエージェントセットアップを使用して、200Kの数学問題の高品質な合成データセットを作成する。
論文参考訳（メタデータ） (2024-02-16T23:44:38Z)
MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language Models [64.70153487607172]
言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。自然言語の推論に関しては、いまだに幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。近年の研究では、フィードバックによる自己改善によるLMの強化に焦点が当てられている。本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。
論文参考訳（メタデータ） (2023-10-19T02:32:39Z)
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文参考訳（メタデータ） (2023-09-21T17:45:42Z)
MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。 MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文参考訳（メタデータ） (2023-03-04T04:43:49Z)
Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。 GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文参考訳（メタデータ） (2023-02-17T14:46:38Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-06T03:38:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。