論文の概要: Look Before You Leap: Problem Elaboration Prompting Improves
Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.15764v1
- Date: Sat, 24 Feb 2024 08:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:00:40.740374
- Title: Look Before You Leap: Problem Elaboration Prompting Improves
Mathematical Reasoning in Large Language Models
- Title(参考訳): look before you leap: 大規模言語モデルの数学的推論を改善する問題解決
- Authors: Haoran Liao, Jidong Tian, Shaohua Hu, Hao He, Yaohui Jin
- Abstract要約: PEP(De problem Elaboration Prompting)という,LLMの数学的能力向上のための新しい手法を提案する。
PEPは、推論の前に問題コンテキストを分解し、解明し、グローバルなコンテキストモデリングを強化し、解析の難しさを軽減する。
データセットの実験は、複雑な推論における有望なパフォーマンスを示し、不整合問題に対する有益な影響を示す。
- 参考スコア(独自算出の注目度): 16.792230596813898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models~(LLMs) have exhibited impressive performance across NLP
tasks. So far they still face challenges in complex reasoning tasks and can be
sensitive to input context. Despite significant efforts have been invested in
enhancing reasoning process and improving prefix-prompts robustness, the
crucial role of problem context has been overlooked. In this study, we propose
a new approach to improve the mathematical capacities of LLMs, named Problem
Elaboration Prompting~(PEP). Specifically, PEP decomposes and elucidates the
problem context before reasoning, thus enhancing the global context modeling
and reducing the parsing difficulties. Experiments on datasets demonstrate
promising performances on complex reasoning and indicate the beneficial impact
for ill-formed problems. For instance, with the GPT-3.5
model~(\texttt{text-davinci-003}), we observed a 9.93\% improvement with greedy
decoding and 8.80\% improvement with self-consistency on GSM8k compared to the
standard CoT. With ChatGPT~(\texttt{turbo}) and PEP, we achieve SOTA
performances on SVAMP with 86.2\% and GSM8k with 90.98\%.
- Abstract(参考訳): 大きな言語モデル~(LLM)は、NLPタスク全体で素晴らしいパフォーマンスを示している。
今のところ、複雑な推論タスクの課題に直面しており、入力コンテキストに敏感である。
推論プロセスの強化やプレフィックス・プロンプトの堅牢性向上に多大な努力が注がれているが、問題コンテキストの重要な役割は見過ごされている。
本研究では,LLMの数学的能力向上のための新しい手法を提案する。
具体的には、PEPは推論の前に問題コンテキストを分解、解明し、グローバルなコンテキストモデリングを強化し、解析の難しさを軽減する。
データセットの実験は、複雑な推論における有望なパフォーマンスを示し、不整合問題に対する有益な影響を示す。
例えば、GPT-3.5モデル~(\texttt{text-davinci-003})では、greedyデコードによる9.93\%の改善と、標準のCoTと比較してGSM8kでの自己整合性による8.80\%の改善が観察された。
ChatGPT~(\texttt{turbo})とPEPでは、SVAMPで86.2\%、GSM8kで90.98\%のSOTA性能を達成する。
関連論文リスト
- Learning by Analogy: Enhancing Few-Shot Prompting for Math Word Problem Solving with Computational Graph-Based Retrieval [22.865124583257987]
同様に構造化された質問の類似性によって,大規模言語モデルの問題解決能力が向上することを示す。
具体的には、与えられた質問に類似した計算グラフを持つ問題の検索を頼りに、プロンプトの見本として機能する。
6つの数学単語問題データセットに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-25T15:01:25Z) - When Not to Answer: Evaluating Prompts on GPT Models for Effective Abstention in Unanswerable Math Word Problems [0.6249768559720122]
大規模言語モデル(LLM)は、複雑な数学的単語問題を解決するためにますます頼りになっている。
答えがつかない質問を提示すると、不正確な結果が得られ、潜在的な害について懸念を提起する。
本稿では,解答可能な数学的シナリオで一般的に用いられるプロンプトを適用することにより,GPTが解答不能な数学的単語問題に適切に対応できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-10-16T20:40:50Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models [8.370453544530914]
大規模言語モデル(LLM)は、様々な領域で優れたパフォーマンスを示すが、算術的推論タスクに苦戦している。
近年の研究では,推理能力向上における迅速な設計手法の有効性が示されている。
本稿では,教師が指導する指導過程をエミュレートした,新しい効果的な指導インスパイアされた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:36Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Assessing the Impact of Prompting Methods on ChatGPT's Mathematical
Capabilities [5.362057681411727]
本研究は,大規模言語モデル(LLM)の数学的推論能力を高める手法の有効性を批判的に評価する。
この分析はOpenAIのLLMであるChatGPT-3.5上で,MATH, GSM8K, MMLUデータセットからの広範な問題集合に対して行われる。
予想とは対照的に,本研究では,ChatGPT-3.5のベースライン性能に対して検討した手法が常に改善されていないことを実証分析により明らかにした。
論文 参考訳(メタデータ) (2023-12-22T17:39:40Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は 比較的未調査です
後方推論は 前方推論の「逆」と見なすことができます
性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。