論文の概要: Assessing the Impact of Prompting Methods on ChatGPT's Mathematical
Capabilities
- arxiv url: http://arxiv.org/abs/2312.15006v2
- Date: Tue, 20 Feb 2024 18:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:49:04.660921
- Title: Assessing the Impact of Prompting Methods on ChatGPT's Mathematical
Capabilities
- Title(参考訳): ChatGPTの数学的能力に及ぼすプロンプト法の影響評価
- Authors: Yuhao Chen, Chloe Wong, Hanwen Yang, Juan Aguenza, Sai Bhujangari,
Benthan Vu, Xun Lei, Amisha Prasad, Manny Fluss, Eric Phuong, Minghao Liu,
Raja Kumar, Vanshika Vats, James Davis
- Abstract要約: 本研究は,大規模言語モデル(LLM)の数学的推論能力を高める手法の有効性を批判的に評価する。
この分析はOpenAIのLLMであるChatGPT-3.5上で,MATH, GSM8K, MMLUデータセットからの広範な問題集合に対して行われる。
予想とは対照的に,本研究では,ChatGPT-3.5のベースライン性能に対して検討した手法が常に改善されていないことを実証分析により明らかにした。
- 参考スコア(独自算出の注目度): 5.362057681411727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study critically evaluates the efficacy of prompting methods in
enhancing the mathematical reasoning capability of large language models
(LLMs). The investigation uses three prescriptive prompting methods - simple,
persona, and conversational prompting - known for their effectiveness in
enhancing the linguistic tasks of LLMs. We conduct this analysis on OpenAI's
LLM chatbot, ChatGPT-3.5, on extensive problem sets from the MATH, GSM8K, and
MMLU datasets, encompassing a broad spectrum of mathematical challenges. A
grading script adapted to each dataset is used to determine the effectiveness
of these prompting interventions in enhancing the model's mathematical analysis
power. Contrary to expectations, our empirical analysis reveals that none of
the investigated methods consistently improves over ChatGPT-3.5's baseline
performance, with some causing significant degradation. Our findings suggest
that prompting strategies do not necessarily generalize to new domains, in this
study failing to enhance mathematical performance.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)の数学的推論能力を向上する手法の有効性を批判的に評価する。
この調査は、LLMの言語的タスクを強化する効果で知られている、シンプル、ペルソナ、会話的プロンプトの3つの規範的プロンプト手法を用いている。
我々は,OpenAI の LLM チャットボット ChatGPT-3.5 上で,MATH,GSM8K,MMLU データセットからの広範な問題集合を解析し,幅広い数学的課題を包含する。
各データセットに適応したグレーディングスクリプトを使用して、モデルの数学的解析能力を高めるためにこれらの介入の促進効果を決定する。
期待に反して,実験結果から,chatgpt-3.5のベースライン性能を一貫して改善する手法は存在せず,大幅な劣化を生じさせるものもみられた。
本研究は,本研究が数学的性能の向上に失敗し,必ずしも新たな領域に一般化するとは限らないことを示唆する。
関連論文リスト
- Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Investigating Symbolic Capabilities of Large Language Models [16.88906206735967]
本研究の目的は,一連の記号的タスクにおいて,LLM(Large Language Models)を厳格に評価することにより,ギャップを埋めることである。
我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。
その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-05-21T21:24:34Z) - Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models [15.65204261844768]
本稿では,大規模言語モデル(LLM)の数学的能力を高めるために,PEPという新しい手法を提案する。
PEPは、推論の前に問題コンテキストを分解し、解明するので、コンテキストモデリングと解析効率が向上する。
論文 参考訳(メタデータ) (2024-02-24T08:40:30Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - Investigating the Efficacy of Large Language Models in Reflective
Assessment Methods through Chain of Thoughts Prompting [0.2552922646705803]
複雑な推論タスクにおけるLLMの習熟度を高める手段として、Chain of Thought(CoT)プロンプト法が提案されている。
本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。
論文 参考訳(メタデータ) (2023-09-30T06:25:27Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Let GPT be a Math Tutor: Teaching Math Word Problem Solvers with
Customized Exercise Generation [39.282695549919495]
本稿では,大規模言語モデル(LLM)からより小さく,より効率的な学生モデルへ,数学用語の問題解決能力を蒸留する新しい手法を提案する。
本手法は, 学生モデルの弱点を考察し, 教育科学の原則に沿った目標運動を生成することによって, 適切な学習体験を育成することを目的としている。
論文 参考訳(メタデータ) (2023-05-22T17:36:14Z) - Multi-objective hyperparameter optimization with performance uncertainty [62.997667081978825]
本稿では,機械学習アルゴリズムの評価における不確実性を考慮した多目的ハイパーパラメータ最適化の結果について述べる。
木構造型Parzen Estimator(TPE)のサンプリング戦略と、ガウス過程回帰(GPR)と異種雑音の訓練後に得られたメタモデルを組み合わせる。
3つの解析的テスト関数と3つのML問題の実験結果は、多目的TPEとGPRよりも改善したことを示している。
論文 参考訳(メタデータ) (2022-09-09T14:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。