Fugu-MT 論文翻訳(概要): Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems

論文の概要: Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems

arxiv url: http://arxiv.org/abs/2308.05713v2
Date: Mon, 14 Aug 2023 23:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 15:48:29.984914
Title: Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems
Title（参考訳）: Wolfram AlphaおよびCode Interpreterプラグインを用いたGPT-4のテスト
Authors: Ernest Davis and Scott Aaronson
Abstract要約: GPT-4は、高校と大学レベルで、科学と数学の105のオリジナルの問題でテストされた。以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。
参考スコア（独自算出の注目度）: 4.006745047019997
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This report describes a test of the large language model GPT-4 with the Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in science and math, at the high school and college levels, carried out in June-August 2023. Our tests suggest that the plug-ins significantly enhance GPT's ability to solve these problems. Having said that, there are still often "interface" failures; that is, GPT often has trouble formulating problems in a way that elicits useful answers from the plug-ins. Fixing these interface failures seems like a central challenge in making GPT a reliable tool for college-level calculation problems.
Abstract（参考訳）: 本報告では,2023年6月から8月にかけて行われた,理科・数学における105のオリジナル問題に対する,Wolfram Alpha と Code Interpreter プラグインを用いた大規模言語モデル GPT-4 のテストについて述べる。以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。つまり、GPTは、プラグインから有用な回答を導き出す方法で、問題を定式化するのに苦労することが多いのです。これらのインターフェースの障害を修正することは、GPTを大学レベルの計算問題に対する信頼性の高いツールにする上で、中心的な課題であるように思える。

関連論文リスト

Hide and Seek with LLMs: An Adversarial Game for Sneaky Error Generation and Self-Improving Diagnosis [51.88592148135258]
本稿では,エラー生成と診断のための動的対向フレームワークであるHie and Seek Game (HSG)を提案する。 HSGには2つの敵対的役割がある: Sneakyは、微妙で偽りの推論エラーを発生させることで「隠す」ことと、それらを正確に検出するために「探す」診断である。いくつかの数学推論タスクの実験では、HSGはエラー診断を著しく向上し、GPT-4oのようなベースラインよりも16.8%--31.4%高い精度を達成している。
論文参考訳（メタデータ） (2025-08-05T12:45:21Z)
Evaluating ChatGPT-3.5 Efficiency in Solving Coding Problems of Different Complexity Levels: An Empirical Analysis [6.123324869194196]
我々はLeetCode上でChatGPTのGPT-3.5-turboモデルの性能を評価する。 ChatGPTは困難が増すにつれて少ない問題を解く。次に、プロンプトエンジニアリングによりChatGPTの性能が向上する。第3に、Python、Java、C++といった一般的な言語では、Elixir、Erlang、Racketといったあまり一般的でない言語よりも、ChatGPTの方がパフォーマンスがよい。
論文参考訳（メタデータ） (2024-11-12T04:01:09Z)
Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文参考訳（メタデータ） (2024-11-07T22:51:47Z)
When Not to Answer: Evaluating Prompts on GPT Models for Effective Abstention in Unanswerable Math Word Problems [0.6249768559720122]
大規模言語モデル(LLM)は、複雑な数学的単語問題を解決するためにますます頼りになっている。答えがつかない質問を提示すると、不正確な結果が得られ、潜在的な害について懸念を提起する。本稿では,解答可能な数学的シナリオで一般的に用いられるプロンプトを適用することにより,GPTが解答不能な数学的単語問題に適切に対応できるかどうかを検討する。
論文参考訳（メタデータ） (2024-10-16T20:40:50Z)
Testing GPT-4-o1-preview on math and science problems: A follow-up study [1.8130068086063336]
2023年8月、私はWolfram AlphaとCode InterpreterのプラグインでGPT4を105の高校レベルと大学レベルの科学と数学の問題でテストしました。 2024年9月、私は同じコレクションで最近リリースされたモデルGPT-4o1-previewをテストしました。全体として、パフォーマンスは大幅に改善されたが、まだ完璧には程遠いことが分かりました。
論文参考訳（メタデータ） (2024-10-11T19:56:26Z)
Benchmarking ChatGPT on Algorithmic Reasoning [58.50071292008407]
GNN向けに設計されたCLRSベンチマークスイートからChatGPTのアルゴリズム問題を解く能力を評価する。 ChatGPTは、Pythonを使ってこれらの問題を解決することで、専門家のGNNモデルより優れています。
論文参考訳（メタデータ） (2024-04-04T13:39:06Z)
Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文参考訳（メタデータ） (2023-11-11T11:01:13Z)
ChatGPT-4 with Code Interpreter can be used to solve introductory college-level vector calculus and electromagnetism problems [0.0]
また,ChatGPT 3.5,4,4をCode Interpreterで評価した。 Code Interpreterを使ったChatGPT-4は、私たちがよくテストしたほとんどの問題を十分に解決することができた。
論文参考訳（メタデータ） (2023-09-16T05:19:39Z)
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification [40.83776920225375]
OpenAIのGPT-4の最新バージョンは、GPT-4 Code Interpreterと呼ばれ、挑戦的な数学データセットにおいて顕著なパフォーマンスを示している。新規かつ効果的なUlinecode-based ulineself-ulineverification(CSV)を提案する。我々はMATHデータセット textbf (53.9% $to 84.3%) で印象的なゼロショット精度を達成した。
論文参考訳（メタデータ） (2023-08-15T17:58:45Z)
How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。 GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文参考訳（メタデータ） (2023-07-18T06:56:08Z)
Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency in coding algorithms and data structures [0.6990493129893112]
本稿では,ChatGPTが入力した問題に対する正しい解を生成する能力,コード品質,コードによってスローされる実行時エラーの性質を評価する。この種の状況において、ChatGPTコードがいかに間違っているか、いくつかの洞察を得るために、パスされたテストケースのパターンを調べます。
論文参考訳（メタデータ） (2023-07-10T08:20:34Z)
RefGPT: Dialogue Generation of GPT, by GPT, and for GPT [61.451780081612974]
大規模言語モデル(LLM)は、高品質な命令データを微調整することで、幅広いNLPタスクを解決するという印象的な能力を達成した。しかし、高品質な人文データ、特にマルチターン対話の収集は高価であり、ほとんどの人にとっては不可能である。本稿では,RefGPTと呼ばれる手法を用いて,モデル幻覚による事実の誤りを気にすることなく,真理でカスタマイズされた対話を生成する手法を提案する。
論文参考訳（メタデータ） (2023-05-24T10:30:42Z)
TheoremQA: A Theorem-driven Question Answering dataset [100.39878559382694]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文参考訳（メタデータ） (2023-05-21T17:51:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。