論文の概要: DOP: Diagnostic-Oriented Prompting for Large Language Models in Mathematical Correction
- arxiv url: http://arxiv.org/abs/2405.12100v1
- Date: Mon, 20 May 2024 15:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 12:55:09.366717
- Title: DOP: Diagnostic-Oriented Prompting for Large Language Models in Mathematical Correction
- Title(参考訳): DOP:Mathematical Correctionにおける大規模言語モデルのための診断指向プロンプト
- Authors: Hao Chen, Biaojie Zeng, Xin Lin, Liang He, Aimin Zhou,
- Abstract要約: 数学世界問題修正(MWPC)は数学問題の解法における推論誤差の修正を目的とした新しい課題である。
数学的推論と誤り訂正の区別の2つの主要な目的に対処する。
診断指向プロンピング(DOP)と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 21.511831985975473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Math world problems correction(MWPC) is a novel task dedicated to rectifying reasoning errors in the process of solving mathematical problems. In this paper, leveraging the advancements in large language models (LLMs), we address two key objectives:(1) Distinguishing between mathematical reasoning and error correction; (2) Exploring strategies to enhance the error correction capabilities of LLMs in mathematics to solve MWPC task. We noticed that, in real-time education,assisting students in recognizing their mistakes is more crucial than simply providing correct answers. However, current research tends to prioritize obtaining accurate solutions to math problems rather than correcting potentially incorrect ones. Therefore, we modify the research paradigm, demonstrating that improving mathematical reasoning abilities does not equate to mastery in error correction. Meanwhile, we propose a novel method called diagnostic-oriented promping(DOP) aimed at facilitating LLMs to excel in error correction. In experiments, DOP has shown outstanding performance, highlighting its significant impact. We argue that in mathematical education, the demand for outstanding correctors surpasses that for proficient reasoners. Codes and data are available on https://github.com/ChenhaoEcnuCS/Reason-Correct.
- Abstract(参考訳): 数学世界問題修正(MWPC)は数学問題の解法における推論誤差の修正を目的とした新しい課題である。
本稿では,大規模言語モデル(LLM)の進歩を生かして,(1)数学的推論と誤り訂正の区別,(2)数学におけるLLMの誤り訂正能力を向上してMWPC課題を解決するための戦略を探る。
リアルタイム教育では、学生が間違いを認識することが、単に正しい答えを提供することよりも重要であることに気づきました。
しかしながら、現在の研究では、潜在的な不正な問題を修正するのではなく、数学問題に対する正確な解を得るのが優先されている。
そこで,本研究では,数学的推論能力の向上が誤り訂正の熟達に等しくないことを実証し,研究パラダイムを変更した。
一方,LLMの誤り訂正を容易にするために,診断指向プロンピング(DOP)と呼ばれる新しい手法を提案する。
実験では、DOPは優れたパフォーマンスを示し、その大きな影響を強調しています。
数学教育において、卓越した正当性に対する需要は、熟練した理性者よりも多いと論じる。
コードとデータはhttps://github.com/ChenhaoEcnuCS/Reason-Correctで公開されている。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners [23.713779973116733]
自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である
本稿では,S$3$c-Mathを提案する。
論文 参考訳(メタデータ) (2024-09-03T01:40:21Z) - LLMs can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought [28.122761006724925]
PedCoT(Pedagogical Chain-of-Thought)は、推論ミスの識別のガイドとして設計されている。
PedCoTは、プロンプト(PPP)設計のための教育原則、2段階インタラクションプロセス(TIP)およびグラウンドドPedCoTプロンプトからなる。
提案手法は,信頼性の高い数学的誤り識別の目標を達成し,自動解答グレーディングの基盤を提供する。
論文 参考訳(メタデータ) (2024-05-09T07:37:34Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。