Fugu-MT 論文翻訳(概要): Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models

論文の概要: Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2402.15764v2
Date: Wed, 27 Mar 2024 01:23:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 22:03:50.937380
Title: Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models
Title（参考訳）: 大規模言語モデルにおける数学的推論を改善する問題解決プロンプト
Authors: Haoran Liao, Jidong Tian, Shaohua Hu, Hao He, Yaohui Jin,
Abstract要約: 本稿では,大規模言語モデル(LLM)の数学的能力を高めるために,PEPという新しい手法を提案する。 PEPは、推論の前に問題コンテキストを分解し、解明するので、コンテキストモデリングと解析効率が向上する。
参考スコア（独自算出の注目度）: 15.65204261844768
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) still grapple with complex tasks like mathematical reasoning. Despite significant efforts invested in improving prefix prompts or reasoning process, the crucial role of problem context might have been neglected. Accurate recognition of inputs is fundamental for solving mathematical tasks, as ill-formed problems could potentially mislead LLM's reasoning. In this study, we propose a new approach named Problem Elaboration Prompting (PEP) to enhance the mathematical capacities of LLMs. Specifically, PEP decomposes and elucidates the problem context before reasoning, therefore enhancing the context modeling and parsing efficiency. Experiments across datasets and models demonstrate promising performances: (1) PEP demonstrates an overall enhancement in various mathematical tasks. For instance, with the GPT-3.5 model, PEP exhibits improvements of 9.93% and 8.80% on GSM8k through greedy decoding and self-consistency, respectively. (2) PEP can be easily implemented and integrated with other prompting methods. (3) PEP shows particular strength in handling distraction problems.
Abstract（参考訳）: 大規模言語モデル(LLM)は、数学的推論のような複雑なタスクにまだ対応している。プレフィックスプロンプトや推論プロセスの改善に多大な努力を払っていたにもかかわらず、問題コンテキストの重要な役割は無視されていたかもしれない。入力の正確な認識は、LLMの推論を誤解させる可能性があるため、数学的な問題を解くのに基本的なものである。本研究では,LLMの数学的能力を高めるために,PEP(Issue Elaboration Prompting)という新しい手法を提案する。具体的には、PEPは推論の前に問題コンテキストを分解し、解明するので、コンテキストモデリングと解析効率が向上する。 1) PEPは、様々な数学的タスクにおける全体的な強化を示す。例えば、GPT-3.5モデルでは、PEPはグリージーデコードと自己整合性によって、GSM8kの9.93%と8.80%の改善を示している。 2) PEPは簡単に実装でき、他のプロンプトメソッドと統合できる。 (3) PEPは, 障害問題に対処する上で, 顕著な強度を示した。

関連論文リスト

PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
PEA: Enhancing LLM Performance on Computational-Reasoning Tasks [21.13926189404758]
本研究では、計算推論問題と呼ばれる重要な推論タスクのクラスを記述し、解決するための形式的なアプローチを紹介する。このフレームワークはこれらの問題を述語と列挙の構成要素に分解し、LLMを使って特定の述語、列挙、集約ルールに基づいてプログラムを合成する。実験的な評価により、PEAはベンチマーク計算問題における基礎となるモデルの性能を大幅に向上し、平均精度が約50%向上し、効率が向上することがわかった。
論文参考訳（メタデータ） (2025-02-16T00:27:05Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages [13.377908992869814]
問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2025-01-23T12:14:57Z)
Learning by Analogy: Enhancing Few-Shot Prompting for Math Word Problem Solving with Computational Graph-Based Retrieval [22.865124583257987]
同様に構造化された質問の類似性によって,大規模言語モデルの問題解決能力が向上することを示す。具体的には、与えられた質問に類似した計算グラフを持つ問題の検索を頼りに、プロンプトの見本として機能する。 6つの数学単語問題データセットに対する実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-11-25T15:01:25Z)
When Not to Answer: Evaluating Prompts on GPT Models for Effective Abstention in Unanswerable Math Word Problems [0.6249768559720122]
大規模言語モデル(LLM)は、複雑な数学的単語問題を解決するためにますます頼りになっている。答えがつかない質問を提示すると、不正確な結果が得られ、潜在的な害について懸念を提起する。本稿では,解答可能な数学的シナリオで一般的に用いられるプロンプトを適用することにより,GPTが解答不能な数学的単語問題に適切に対応できるかどうかを検討する。
論文参考訳（メタデータ） (2024-10-16T20:40:50Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models [8.370453544530914]
大規模言語モデル(LLM)は、様々な領域で優れたパフォーマンスを示すが、算術的推論タスクに苦戦している。近年の研究では,推理能力向上における迅速な設計手法の有効性が示されている。本稿では,教師が指導する指導過程をエミュレートした,新しい効果的な指導インスパイアされた統合フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-10T16:02:36Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities [5.362057681411727]
本研究は,大規模言語モデル(LLM)の数学的推論能力を高める手法の有効性を批判的に評価する。この分析はOpenAIのLLMであるChatGPT-3.5上で,MATH, GSM8K, MMLUデータセットからの広範な問題集合に対して行われる。予想とは対照的に,本研究では,ChatGPT-3.5のベースライン性能に対して検討した手法が常に改善されていないことを実証分析により明らかにした。
論文参考訳（メタデータ） (2023-12-22T17:39:40Z)
Self-Convinced Prompting: Few-Shot Question Answering with Repeated Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文参考訳（メタデータ） (2023-10-08T06:36:26Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は比較的未調査です後方推論は前方推論の「逆」と見なすことができます性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文参考訳（メタデータ） (2023-10-03T12:03:06Z)
Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。 NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文参考訳（メタデータ） (2023-06-16T09:40:05Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。