Fugu-MT 論文翻訳(概要): Testing GPT-4-o1-preview on math and science problems: A follow-up study

論文の概要: Testing GPT-4-o1-preview on math and science problems: A follow-up study

arxiv url: http://arxiv.org/abs/2410.22340v1
Date: Fri, 11 Oct 2024 19:56:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.006898
Title: Testing GPT-4-o1-preview on math and science problems: A follow-up study
Title（参考訳）: GPT-4-o1-preview on math and science problem: A follow-up study
Authors: Ernest Davis,
Abstract要約: 2023年8月、私はWolfram AlphaとCode InterpreterのプラグインでGPT4を105の高校レベルと大学レベルの科学と数学の問題でテストしました。 2024年9月、私は同じコレクションで最近リリースされたモデルGPT-4o1-previewをテストしました。全体として、パフォーマンスは大幅に改善されたが、まだ完璧には程遠いことが分かりました。
参考スコア（独自算出の注目度）: 1.8130068086063336
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In August 2023, Scott Aaronson and I reported the results of testing GPT4 with the Wolfram Alpha and Code Interpreter plug-ins over a collection of 105 original high-school level and college-level science and math problems (Davis and Aaronson, 2023). In September 2024, I tested the recently released model GPT-4o1-preview on the same collection. Overall I found that performance had significantly improved, but was still considerably short of perfect. In particular, problems that involve spatial reasoning are often stumbling blocks.
Abstract（参考訳）: 2023年8月、Scott Aaronsonと私は、GPT4をWolfram AlphaとCode Interpreterのプラグインで105の高校レベルと大学レベルの科学と数学の問題(Davis and Aaronson, 2023)でテストした結果を報告した。 2024年9月、私は同じコレクションで最近リリースされたモデルGPT-4o1-previewをテストしました。全体として、パフォーマンスは大幅に改善されたが、まだ完璧には程遠いことが分かりました。特に、空間的推論に関わる問題は、しばしば障害となる。

関連論文リスト

Learning to Discover at Test Time [79.84622971773862]
私たちはAIを使って、科学的な問題に対する新しい最先端のアートを発見します。この手法をTTT-Discover(Test-Time Training to Discover)と呼ぶ。数学、GPUカーネルエンジニアリング、アルゴリズム設計、生物学のあらゆる問題に対する結果を報告する。
論文参考訳（メタデータ） (2026-01-22T18:24:00Z)
Evaluating Large Language Models on the 2026 Korean CSAT Mathematics Exam: Measuring Mathematical Ability in a Zero-Data-Leakage Setting [5.313647446600863]
本研究は,2026年の韓国・カレッジ・スコラスティック能力テスト(CSAT)を用いた大規模言語モデル(LLM)の数学的推論能力について,体系的に評価した。既存のベンチマークにおけるデータ漏洩問題に対処するため、試験公開から2時間以内に46の質問(22件、24件)をすべてデジタル化した。
論文参考訳（メタデータ） (2025-11-23T23:09:33Z)
BeyondBench: Benchmark-Free Evaluation of Reasoning in Language Models [13.380359214677176]
インターネット規模のトレーニングデータから汚染を避けるための評価フレームワークであるBeyondBenchを紹介する。本フレームワークでは,44のアルゴリズムタスクを117のバリエーションでカバーし,3つの難易度に分類する。 85のオープンソースモデルと16のクローズドソースモデルを含む101の言語モデルを評価する。
論文参考訳（メタデータ） (2025-09-29T02:49:01Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
Generative AI Takes a Statistics Exam: A Comparison of Performance between ChatGPT3.5, ChatGPT4, and ChatGPT4o-mini [0.0]
小学校1年生を対象に, GPT バージョン3.5, 4.0, 4o-mini の16質問統計試験において, GPT バージョン3.5, 4.0, 4o-mini の成績を検討した。その結果, GPT3.5と4o-miniはいずれもGPT4と類似していることがわかった。
論文参考訳（メタデータ） (2025-01-15T21:46:01Z)
Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文参考訳（メタデータ） (2024-11-25T12:44:02Z)
Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文参考訳（メタデータ） (2024-11-07T22:51:47Z)
Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文参考訳（メタデータ） (2024-04-12T21:35:21Z)
Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems [3.3916160303055567]
GPT-4は、高校と大学レベルで、科学と数学の105のオリジナルの問題でテストされた。以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-10T17:22:28Z)
How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。 GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文参考訳（メタデータ） (2023-07-18T06:56:08Z)
Is ChatGPT a Biomedical Expert? -- Exploring the Zero-Shot Performance of Current GPT Models in Biomedical Tasks [4.2177790395417745]
GPT-3.5-TurboとGPT-4は主要なシステムと競合する能力を示した。より古く安価なGPT-3.5-Turboシステムは、地上のQ&A設定でGPT-4と競合することができた。
論文参考訳（メタデータ） (2023-06-28T11:24:48Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。