Fugu-MT 論文翻訳(概要): Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models

論文の概要: Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2402.15764v1
Date: Sat, 24 Feb 2024 08:40:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 17:00:40.740374
Title: Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models
Title（参考訳）: look before you leap: 大規模言語モデルの数学的推論を改善する問題解決
Authors: Haoran Liao, Jidong Tian, Shaohua Hu, Hao He, Yaohui Jin
Abstract要約: PEP(De problem Elaboration Prompting)という,LLMの数学的能力向上のための新しい手法を提案する。 PEPは、推論の前に問題コンテキストを分解し、解明し、グローバルなコンテキストモデリングを強化し、解析の難しさを軽減する。データセットの実験は、複雑な推論における有望なパフォーマンスを示し、不整合問題に対する有益な影響を示す。
参考スコア（独自算出の注目度）: 16.792230596813898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models~(LLMs) have exhibited impressive performance across NLP tasks. So far they still face challenges in complex reasoning tasks and can be sensitive to input context. Despite significant efforts have been invested in enhancing reasoning process and improving prefix-prompts robustness, the crucial role of problem context has been overlooked. In this study, we propose a new approach to improve the mathematical capacities of LLMs, named Problem Elaboration Prompting~(PEP). Specifically, PEP decomposes and elucidates the problem context before reasoning, thus enhancing the global context modeling and reducing the parsing difficulties. Experiments on datasets demonstrate promising performances on complex reasoning and indicate the beneficial impact for ill-formed problems. For instance, with the GPT-3.5 model~(\texttt{text-davinci-003}), we observed a 9.93\% improvement with greedy decoding and 8.80\% improvement with self-consistency on GSM8k compared to the standard CoT. With ChatGPT~(\texttt{turbo}) and PEP, we achieve SOTA performances on SVAMP with 86.2\% and GSM8k with 90.98\%.
Abstract（参考訳）: 大きな言語モデル~(LLM)は、NLPタスク全体で素晴らしいパフォーマンスを示している。今のところ、複雑な推論タスクの課題に直面しており、入力コンテキストに敏感である。推論プロセスの強化やプレフィックス・プロンプトの堅牢性向上に多大な努力が注がれているが、問題コンテキストの重要な役割は見過ごされている。本研究では,LLMの数学的能力向上のための新しい手法を提案する。具体的には、PEPは推論の前に問題コンテキストを分解、解明し、グローバルなコンテキストモデリングを強化し、解析の難しさを軽減する。データセットの実験は、複雑な推論における有望なパフォーマンスを示し、不整合問題に対する有益な影響を示す。例えば、GPT-3.5モデル~(\texttt{text-davinci-003})では、greedyデコードによる9.93\%の改善と、標準のCoTと比較してGSM8kでの自己整合性による8.80\%の改善が観察された。 ChatGPT~(\texttt{turbo})とPEPでは、SVAMPで86.2\%、GSM8kで90.98\%のSOTA性能を達成する。

関連論文リスト

PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
PEA: Enhancing LLM Performance on Computational-Reasoning Tasks [21.13926189404758]
本研究では、計算推論問題と呼ばれる重要な推論タスクのクラスを記述し、解決するための形式的なアプローチを紹介する。このフレームワークはこれらの問題を述語と列挙の構成要素に分解し、LLMを使って特定の述語、列挙、集約ルールに基づいてプログラムを合成する。実験的な評価により、PEAはベンチマーク計算問題における基礎となるモデルの性能を大幅に向上し、平均精度が約50%向上し、効率が向上することがわかった。
論文参考訳（メタデータ） (2025-02-16T00:27:05Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages [13.377908992869814]
問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2025-01-23T12:14:57Z)
Learning by Analogy: Enhancing Few-Shot Prompting for Math Word Problem Solving with Computational Graph-Based Retrieval [22.865124583257987]
同様に構造化された質問の類似性によって,大規模言語モデルの問題解決能力が向上することを示す。具体的には、与えられた質問に類似した計算グラフを持つ問題の検索を頼りに、プロンプトの見本として機能する。 6つの数学単語問題データセットに対する実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-11-25T15:01:25Z)
When Not to Answer: Evaluating Prompts on GPT Models for Effective Abstention in Unanswerable Math Word Problems [0.6249768559720122]
大規模言語モデル(LLM)は、複雑な数学的単語問題を解決するためにますます頼りになっている。答えがつかない質問を提示すると、不正確な結果が得られ、潜在的な害について懸念を提起する。本稿では,解答可能な数学的シナリオで一般的に用いられるプロンプトを適用することにより,GPTが解答不能な数学的単語問題に適切に対応できるかどうかを検討する。
論文参考訳（メタデータ） (2024-10-16T20:40:50Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models [8.370453544530914]
大規模言語モデル(LLM)は、様々な領域で優れたパフォーマンスを示すが、算術的推論タスクに苦戦している。近年の研究では,推理能力向上における迅速な設計手法の有効性が示されている。本稿では,教師が指導する指導過程をエミュレートした,新しい効果的な指導インスパイアされた統合フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-10T16:02:36Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities [5.362057681411727]
本研究は,大規模言語モデル(LLM)の数学的推論能力を高める手法の有効性を批判的に評価する。この分析はOpenAIのLLMであるChatGPT-3.5上で,MATH, GSM8K, MMLUデータセットからの広範な問題集合に対して行われる。予想とは対照的に,本研究では,ChatGPT-3.5のベースライン性能に対して検討した手法が常に改善されていないことを実証分析により明らかにした。
論文参考訳（メタデータ） (2023-12-22T17:39:40Z)
Self-Convinced Prompting: Few-Shot Question Answering with Repeated Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文参考訳（メタデータ） (2023-10-08T06:36:26Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は比較的未調査です後方推論は前方推論の「逆」と見なすことができます性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文参考訳（メタデータ） (2023-10-03T12:03:06Z)
Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。 NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文参考訳（メタデータ） (2023-06-16T09:40:05Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。