論文の概要: Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math
and science problems
- arxiv url: http://arxiv.org/abs/2308.05713v2
- Date: Mon, 14 Aug 2023 23:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 15:48:29.984914
- Title: Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math
and science problems
- Title(参考訳): Wolfram AlphaおよびCode Interpreterプラグインを用いたGPT-4のテスト
- Authors: Ernest Davis and Scott Aaronson
- Abstract要約: GPT-4は、高校と大学レベルで、科学と数学の105のオリジナルの問題でテストされた。
以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.006745047019997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes a test of the large language model GPT-4 with the
Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in
science and math, at the high school and college levels, carried out in
June-August 2023. Our tests suggest that the plug-ins significantly enhance
GPT's ability to solve these problems. Having said that, there are still often
"interface" failures; that is, GPT often has trouble formulating problems in a
way that elicits useful answers from the plug-ins. Fixing these interface
failures seems like a central challenge in making GPT a reliable tool for
college-level calculation problems.
- Abstract(参考訳): 本報告では,2023年6月から8月にかけて行われた,理科・数学における105のオリジナル問題に対する,Wolfram Alpha と Code Interpreter プラグインを用いた大規模言語モデル GPT-4 のテストについて述べる。
以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。
つまり、GPTは、プラグインから有用な回答を導き出す方法で、問題を定式化するのに苦労することが多いのです。
これらのインターフェースの障害を修正することは、GPTを大学レベルの計算問題に対する信頼性の高いツールにする上で、中心的な課題であるように思える。
関連論文リスト
- Benchmarking ChatGPT on Algorithmic Reasoning [58.50071292008407]
GNN向けに設計されたCLRSベンチマークスイートからChatGPTのアルゴリズム問題を解く能力を評価する。
ChatGPTは、Pythonを使ってこれらの問題を解決することで、専門家のGNNモデルより優れています。
論文 参考訳(メタデータ) (2024-04-04T13:39:06Z) - Navigating Compiler Errors with AI Assistance - A Study of GPT Hints in an Introductory Programming Course [0.23020018305241333]
大学における初等プログラミングコースにおけるAI支援学習の有効性について検討した。
我々は、GPT-4モデルを用いて、プラットフォーム内のコンパイラエラーに対するパーソナライズされたヒントを生成し、プログラム割り当ての自動評価を行った。
最も一般的な6種類のエラーに対して、実験グループでGPTヒントへのアクセスが可能になったときに、性能の点で混合結果が観察された。
論文 参考訳(メタデータ) (2024-03-19T13:54:14Z) - How ChatGPT is Solving Vulnerability Management Problem [58.31828926938327]
78,445のサンプルを含む大規模データセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を調査する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - ChatGPT-4 with Code Interpreter can be used to solve introductory
college-level vector calculus and electromagnetism problems [0.0]
また,ChatGPT 3.5,4,4をCode Interpreterで評価した。
Code Interpreterを使ったChatGPT-4は、私たちがよくテストしたほとんどの問題を十分に解決することができた。
論文 参考訳(メタデータ) (2023-09-16T05:19:39Z) - Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with
Code-based Self-Verification [40.83776920225375]
OpenAIのGPT-4の最新バージョンは、GPT-4 Code Interpreterと呼ばれ、挑戦的な数学データセットにおいて顕著なパフォーマンスを示している。
新規かつ効果的なUlinecode-based ulineself-ulineverification(CSV)を提案する。
我々はMATHデータセット textbf (53.9% $to 84.3%) で印象的なゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-08-15T17:58:45Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency
in coding algorithms and data structures [1.3124513975412255]
本稿では,ChatGPTが入力した問題に対する正しい解を生成する能力,コード品質,コードによってスローされる実行時エラーの性質を評価する。
この種の状況において、ChatGPTコードがいかに間違っているか、いくつかの洞察を得るために、パスされたテストケースのパターンを調べます。
論文 参考訳(メタデータ) (2023-07-10T08:20:34Z) - RefGPT: Dialogue Generation of GPT, by GPT, and for GPT [61.451780081612974]
大規模言語モデル(LLM)は、高品質な命令データを微調整することで、幅広いNLPタスクを解決するという印象的な能力を達成した。
しかし、高品質な人文データ、特にマルチターン対話の収集は高価であり、ほとんどの人にとっては不可能である。
本稿では,RefGPTと呼ばれる手法を用いて,モデル幻覚による事実の誤りを気にすることなく,真理でカスタマイズされた対話を生成する手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:30:42Z) - TheoremQA: A Theorem-driven Question Answering dataset [100.39878559382694]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。
TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文 参考訳(メタデータ) (2023-05-21T17:51:35Z) - ChatGPT Participates in a Computer Science Exam [16.665883787432858]
我々はChatGPTに、'algorithms and Data Structures'の学部コンピュータサイエンス試験への参加を依頼する。
回答を試験用シートに手動でコピーし、その後、200人の学生と一緒にブラインド・セットアップで評価した。
結果,ChatGPTは40点中20.5点を獲得した。
論文 参考訳(メタデータ) (2023-03-08T15:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。