論文の概要: Reasoning in Large Language Models Through Symbolic Math Word Problems
- arxiv url: http://arxiv.org/abs/2308.01906v1
- Date: Thu, 3 Aug 2023 17:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 13:12:02.334087
- Title: Reasoning in Large Language Models Through Symbolic Math Word Problems
- Title(参考訳): 記号的数学用語問題による大規模言語モデルの推論
- Authors: Vedant Gaur, Nikunj Saunshi
- Abstract要約: 大規模言語モデル(LLM)は、ラベル付きデータで下流タスクを解決することで、NLPに革命をもたらした。
本稿では,数値問題のシンボリックバージョンを研究することにより,算術語問題(MWP)の推論に対処する。
我々はSVAMPデータセットのシンボリックバージョンを作成し使用し、GPT-3のダヴィンチモデルもシンボリックMWPに対して良好なゼロショット精度を持つことを示した。
- 参考スコア(独自算出の注目度): 9.77573271200535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have revolutionized NLP by solving downstream
tasks with little to no labeled data. Despite their versatile abilities, the
larger question of their ability to reason remains ill-understood. This paper
addresses reasoning in math word problems (MWPs) by studying symbolic versions
of the numeric problems, since a symbolic expression is a "concise explanation"
of the numeric answer. We create and use a symbolic version of the SVAMP
dataset and find that GPT-3's davinci-002 model also has good zero-shot
accuracy on symbolic MWPs. To evaluate the faithfulness of the model's
reasoning, we go beyond accuracy and additionally evaluate the alignment
between the final answer and the outputted reasoning, which correspond to
numeric and symbolic answers respectively for MWPs. We explore a self-prompting
approach to encourage the symbolic reasoning to align with the numeric answer,
thus equipping the LLM with the ability to provide a concise and verifiable
reasoning and making it more interpretable. Surprisingly, self-prompting also
improves the symbolic accuracy to be higher than both the numeric and symbolic
accuracies, thus providing an ensembling effect. The SVAMP_Sym dataset will be
released for future research on symbolic math problems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ラベル付きデータで下流タスクを解決することで、NLPに革命をもたらした。
その多彩な能力にもかかわらず、推論能力に関する大きな疑問はいまだに理解されていない。
本稿では,数値解の記号表現が「簡潔な説明」であるため,数値問題の記号バージョンを研究することにより,数学語問題(MWP)の推論に対処する。
SVAMPデータセットのシンボリックバージョンを作成し使用し、GPT-3のdavinci-002モデルもシンボリックMWPに対して良好なゼロショット精度を持つことを示した。
モデルの推論の忠実性を評価するために、mwpに対して、最終回答と出力された推論のアライメントを、それぞれ数値と記号的回答に対応付けて、精度を超えて評価する。
そこで我々は,記号的推論を数値的解法に適合させることを奨励し,llmに簡潔かつ検証可能な推論を提供し,解釈しやすくする自明なアプローチを検討する。
驚くべきことに、自己プロンプティングは、数値的および記号的アキュラシーの両方よりも高いシンボリック精度を向上し、アンサンブル効果をもたらす。
SVAMP_Symデータセットは、記号数学問題の将来の研究のためにリリースされる。
関連論文リスト
- ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - MalAlgoQA: Pedagogical Evaluation of Counterfactual Reasoning in Large Language Models and Implications for AI in Education [2.872215065231376]
本稿では,MalAlgoQAを提案する。MalAlgoQAは,大規模言語モデルの対実的推論能力を評価するために設計されたデータセットである。
MalAlgoQAの核心は、誤った答えの選択の裏にある、不完全で論理的に一貫性のある推論経路の理論的根拠である。
論文 参考訳(メタデータ) (2024-07-01T03:39:13Z) - A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters [8.178862820609297]
論理的推論へのアプローチの性能のばらつきが、採用法や特定の記号解法に起因しているかどうかは不明である。
Z3,Pyke,Prover9の3つの帰納的推論ベンチマークとLarge Language Modelsを併用した実験を行った。
異なるLLMによって生成される記号翻訳のツール実行速度は、ほぼ50%の性能変化を示す。
論文 参考訳(メタデータ) (2024-06-01T03:29:56Z) - Investigating Symbolic Capabilities of Large Language Models [16.88906206735967]
本研究の目的は,一連の記号的タスクにおいて,LLM(Large Language Models)を厳格に評価することにより,ギャップを埋めることである。
我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。
その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-05-21T21:24:34Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Tackling Math Word Problems with Fine-to-Coarse Abstracting and
Reasoning [22.127301797950572]
本稿では,局所的なきめ細かい情報と,その大域的な論理構造の両方を捉えるために,微粒な方法で数学語問題をモデル化することを提案する。
我々のモデルは局所的な変動に自然に敏感であり、目に見えない問題タイプにより良い一般化が可能である。
論文 参考訳(メタデータ) (2022-05-17T12:14:44Z) - LogicSolver: Towards Interpretable Math Word Problem Solving with
Logical Prompt-enhanced Learning [135.8654475934613]
我々はまず,11,495MWPからなる高品質MWPデータセットInterMWPを構築した。
本稿では論理的プロンプトと解釈を用いた新しい手法であるLogicrを提案する。
これらの改良されたセマンティック表現により、我々のLogicrは、生成された解表現に従って対応する解表現と解釈可能な知識を生成する。
論文 参考訳(メタデータ) (2022-05-17T11:01:52Z) - Neural-Symbolic Solver for Math Word Problems with Auxiliary Tasks [130.70449023574537]
我々のNS-rは、問題を読み取り、問題をエンコードする問題リーダーと、記号方程式を生成するプログラマと、答えを得るシンボリックエグゼキュータから構成される。
また, 目的表現の監督とともに, 4つの新たな補助的目的によって, 異なる記号的推論を強制的に行うように最適化した。
論文 参考訳(メタデータ) (2021-07-03T13:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。