論文の概要: Testing GPT-4-o1-preview on math and science problems: A follow-up study
- arxiv url: http://arxiv.org/abs/2410.22340v1
- Date: Fri, 11 Oct 2024 19:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:20:11.362869
- Title: Testing GPT-4-o1-preview on math and science problems: A follow-up study
- Title(参考訳): GPT-4-o1-preview on math and science problem: A follow-up study
- Authors: Ernest Davis,
- Abstract要約: 2023年8月、私はWolfram AlphaとCode InterpreterのプラグインでGPT4を105の高校レベルと大学レベルの科学と数学の問題でテストしました。
2024年9月、私は同じコレクションで最近リリースされたモデルGPT-4o1-previewをテストしました。
全体として、パフォーマンスは大幅に改善されたが、まだ完璧には程遠いことが分かりました。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License:
- Abstract: In August 2023, Scott Aaronson and I reported the results of testing GPT4 with the Wolfram Alpha and Code Interpreter plug-ins over a collection of 105 original high-school level and college-level science and math problems (Davis and Aaronson, 2023). In September 2024, I tested the recently released model GPT-4o1-preview on the same collection. Overall I found that performance had significantly improved, but was still considerably short of perfect. In particular, problems that involve spatial reasoning are often stumbling blocks.
- Abstract(参考訳): 2023年8月、Scott Aaronsonと私は、GPT4をWolfram AlphaとCode Interpreterのプラグインで105の高校レベルと大学レベルの科学と数学の問題(Davis and Aaronson, 2023)でテストした結果を報告した。
2024年9月、私は同じコレクションで最近リリースされたモデルGPT-4o1-previewをテストしました。
全体として、パフォーマンスは大幅に改善されたが、まだ完璧には程遠いことが分かりました。
特に、空間的推論に関わる問題は、しばしば障害となる。
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。
局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。
当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文 参考訳(メタデータ) (2024-04-12T21:35:21Z) - Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems [3.3916160303055567]
GPT-4は、高校と大学レベルで、科学と数学の105のオリジナルの問題でテストされた。
以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-10T17:22:28Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - Is ChatGPT a Biomedical Expert? -- Exploring the Zero-Shot Performance
of Current GPT Models in Biomedical Tasks [4.2177790395417745]
GPT-3.5-TurboとGPT-4は主要なシステムと競合する能力を示した。
より古く安価なGPT-3.5-Turboシステムは、地上のQ&A設定でGPT-4と競合することができた。
論文 参考訳(メタデータ) (2023-06-28T11:24:48Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。