論文の概要: Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math
and science problems
- arxiv url: http://arxiv.org/abs/2308.05713v2
- Date: Mon, 14 Aug 2023 23:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 15:48:29.984914
- Title: Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math
and science problems
- Title(参考訳): Wolfram AlphaおよびCode Interpreterプラグインを用いたGPT-4のテスト
- Authors: Ernest Davis and Scott Aaronson
- Abstract要約: GPT-4は、高校と大学レベルで、科学と数学の105のオリジナルの問題でテストされた。
以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.006745047019997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes a test of the large language model GPT-4 with the
Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in
science and math, at the high school and college levels, carried out in
June-August 2023. Our tests suggest that the plug-ins significantly enhance
GPT's ability to solve these problems. Having said that, there are still often
"interface" failures; that is, GPT often has trouble formulating problems in a
way that elicits useful answers from the plug-ins. Fixing these interface
failures seems like a central challenge in making GPT a reliable tool for
college-level calculation problems.
- Abstract(参考訳): 本報告では,2023年6月から8月にかけて行われた,理科・数学における105のオリジナル問題に対する,Wolfram Alpha と Code Interpreter プラグインを用いた大規模言語モデル GPT-4 のテストについて述べる。
以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。
つまり、GPTは、プラグインから有用な回答を導き出す方法で、問題を定式化するのに苦労することが多いのです。
これらのインターフェースの障害を修正することは、GPTを大学レベルの計算問題に対する信頼性の高いツールにする上で、中心的な課題であるように思える。
関連論文リスト
- Evaluating ChatGPT-3.5 Efficiency in Solving Coding Problems of Different Complexity Levels: An Empirical Analysis [6.123324869194196]
我々はLeetCode上でChatGPTのGPT-3.5-turboモデルの性能を評価する。
ChatGPTは困難が増すにつれて少ない問題を解く。
次に、プロンプトエンジニアリングによりChatGPTの性能が向上する。
第3に、Python、Java、C++といった一般的な言語では、Elixir、Erlang、Racketといったあまり一般的でない言語よりも、ChatGPTの方がパフォーマンスがよい。
論文 参考訳(メタデータ) (2024-11-12T04:01:09Z) - Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - When Not to Answer: Evaluating Prompts on GPT Models for Effective Abstention in Unanswerable Math Word Problems [0.6249768559720122]
大規模言語モデル(LLM)は、複雑な数学的単語問題を解決するためにますます頼りになっている。
答えがつかない質問を提示すると、不正確な結果が得られ、潜在的な害について懸念を提起する。
本稿では,解答可能な数学的シナリオで一般的に用いられるプロンプトを適用することにより,GPTが解答不能な数学的単語問題に適切に対応できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-10-16T20:40:50Z) - Testing GPT-4-o1-preview on math and science problems: A follow-up study [1.8130068086063336]
2023年8月、私はWolfram AlphaとCode InterpreterのプラグインでGPT4を105の高校レベルと大学レベルの科学と数学の問題でテストしました。
2024年9月、私は同じコレクションで最近リリースされたモデルGPT-4o1-previewをテストしました。
全体として、パフォーマンスは大幅に改善されたが、まだ完璧には程遠いことが分かりました。
論文 参考訳(メタデータ) (2024-10-11T19:56:26Z) - Benchmarking ChatGPT on Algorithmic Reasoning [58.50071292008407]
GNN向けに設計されたCLRSベンチマークスイートからChatGPTのアルゴリズム問題を解く能力を評価する。
ChatGPTは、Pythonを使ってこれらの問題を解決することで、専門家のGNNモデルより優れています。
論文 参考訳(メタデータ) (2024-04-04T13:39:06Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - ChatGPT-4 with Code Interpreter can be used to solve introductory
college-level vector calculus and electromagnetism problems [0.0]
また,ChatGPT 3.5,4,4をCode Interpreterで評価した。
Code Interpreterを使ったChatGPT-4は、私たちがよくテストしたほとんどの問題を十分に解決することができた。
論文 参考訳(メタデータ) (2023-09-16T05:19:39Z) - Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with
Code-based Self-Verification [40.83776920225375]
OpenAIのGPT-4の最新バージョンは、GPT-4 Code Interpreterと呼ばれ、挑戦的な数学データセットにおいて顕著なパフォーマンスを示している。
新規かつ効果的なUlinecode-based ulineself-ulineverification(CSV)を提案する。
我々はMATHデータセット textbf (53.9% $to 84.3%) で印象的なゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-08-15T17:58:45Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - RefGPT: Dialogue Generation of GPT, by GPT, and for GPT [61.451780081612974]
大規模言語モデル(LLM)は、高品質な命令データを微調整することで、幅広いNLPタスクを解決するという印象的な能力を達成した。
しかし、高品質な人文データ、特にマルチターン対話の収集は高価であり、ほとんどの人にとっては不可能である。
本稿では,RefGPTと呼ばれる手法を用いて,モデル幻覚による事実の誤りを気にすることなく,真理でカスタマイズされた対話を生成する手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:30:42Z) - TheoremQA: A Theorem-driven Question Answering dataset [100.39878559382694]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。
TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文 参考訳(メタデータ) (2023-05-21T17:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。