論文の概要: Testing GPT-4-o1-preview on math and science problems: A follow-up study
- arxiv url: http://arxiv.org/abs/2410.22340v1
- Date: Fri, 11 Oct 2024 19:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:20:11.362869
- Title: Testing GPT-4-o1-preview on math and science problems: A follow-up study
- Title(参考訳): GPT-4-o1-preview on math and science problem: A follow-up study
- Authors: Ernest Davis,
- Abstract要約: 2023年8月、私はWolfram AlphaとCode InterpreterのプラグインでGPT4を105の高校レベルと大学レベルの科学と数学の問題でテストしました。
2024年9月、私は同じコレクションで最近リリースされたモデルGPT-4o1-previewをテストしました。
全体として、パフォーマンスは大幅に改善されたが、まだ完璧には程遠いことが分かりました。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License:
- Abstract: In August 2023, Scott Aaronson and I reported the results of testing GPT4 with the Wolfram Alpha and Code Interpreter plug-ins over a collection of 105 original high-school level and college-level science and math problems (Davis and Aaronson, 2023). In September 2024, I tested the recently released model GPT-4o1-preview on the same collection. Overall I found that performance had significantly improved, but was still considerably short of perfect. In particular, problems that involve spatial reasoning are often stumbling blocks.
- Abstract(参考訳): 2023年8月、Scott Aaronsonと私は、GPT4をWolfram AlphaとCode Interpreterのプラグインで105の高校レベルと大学レベルの科学と数学の問題(Davis and Aaronson, 2023)でテストした結果を報告した。
2024年9月、私は同じコレクションで最近リリースされたモデルGPT-4o1-previewをテストしました。
全体として、パフォーマンスは大幅に改善されたが、まだ完璧には程遠いことが分かりました。
特に、空間的推論に関わる問題は、しばしば障害となる。
関連論文リスト
- MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。
本研究では、任意に複雑な算術証明問題に対する LLM の評価フレームワーク、MathGAP を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - TOGLL: Correct and Strong Test Oracle Generation with LLMs [0.8057006406834466]
テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。
初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性をもたらす。
本研究は,LLMの正当性,多種多様性,強靭性テストオラクルの創出能力に関する総合的研究である。
論文 参考訳(メタデータ) (2024-05-06T18:37:35Z) - Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。
局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。
当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文 参考訳(メタデータ) (2024-04-12T21:35:21Z) - Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems [3.3916160303055567]
GPT-4は、高校と大学レベルで、科学と数学の105のオリジナルの問題でテストされた。
以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-10T17:22:28Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - Is ChatGPT a Biomedical Expert? -- Exploring the Zero-Shot Performance
of Current GPT Models in Biomedical Tasks [4.2177790395417745]
GPT-3.5-TurboとGPT-4は主要なシステムと競合する能力を示した。
より古く安価なGPT-3.5-Turboシステムは、地上のQ&A設定でGPT-4と競合することができた。
論文 参考訳(メタデータ) (2023-06-28T11:24:48Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。