論文の概要: Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission
Exams
- arxiv url: http://arxiv.org/abs/2303.17003v1
- Date: Wed, 29 Mar 2023 20:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 15:12:54.800241
- Title: Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission
Exams
- Title(参考訳): ブラジル大学入学試験におけるGPT-3.5およびGPT-4モデルの評価
- Authors: Desnes Nunes, Ricardo Primi, Ramon Pires, Roberto Lotufo, and Rodrigo
Nogueira
- Abstract要約: 本研究では, 言語モデル (LM) の高精細度検定における能力について検討する。
この試験は、質問が複数の分野の知識にまたがる可能性があるため、LMにとって難しい課題となる。
最高性能のGPT-4は87%の精度を達成し、GPT-3.5を11ポイント上回った。
- 参考スコア(独自算出の注目度): 4.2706617195518195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The present study aims to explore the capabilities of Language Models (LMs)
in tackling high-stakes multiple-choice tests, represented here by the Exame
Nacional do Ensino M\'edio (ENEM), a multidisciplinary entrance examination
widely adopted by Brazilian universities. This exam poses challenging tasks for
LMs, since its questions may span into multiple fields of knowledge, requiring
understanding of information from diverse domains. For instance, a question may
require comprehension of both statistics and biology to be solved. This work
analyzed responses generated by GPT-3.5 and GPT-4 models for questions
presented in the 2009-2017 exams, as well as for questions of the 2022 exam,
which were made public after the training of the models was completed.
Furthermore, different prompt strategies were tested, including the use of
Chain-of-Thought (CoT) prompts to generate explanations for answers. On the
2022 edition, the best-performing model, GPT-4 with CoT, achieved an accuracy
of 87%, largely surpassing GPT-3.5 by 11 points. The code and data used on
experiments are available at https://github.com/piresramon/gpt-4-enem.
- Abstract(参考訳): 本研究の目的は,ブラジルの大学が広く採用している多分野の入学試験であるExame Nacional do Ensino M\'edio (ENEM) に代表される,多点検定における言語モデル(LM)の能力を検討することである。
この試験は、様々な領域の情報の理解を必要とする複数の分野の知識にまたがる可能性があるため、LMにとって難しい課題となる。
例えば、ある質問は統計学と生物学の両方の理解を必要とするかもしれない。
本研究は, GPT-3.5 モデルと GPT-4 モデルを用いて,2009-2017 年の試験で提示された質問に対する回答と,モデル訓練終了後に公開された 2022 テストに関する質問に対する回答を分析した。
さらに、Chain-of-Thought(CoT)の使用など、さまざまなプロンプト戦略がテストされた。
2022年版では、最高性能のモデルであるGPT-4が87%の精度を達成し、GPT-3.5を11ポイント上回った。
実験で使用されるコードとデータは、https://github.com/piresramon/gpt-4-enemで入手できる。
関連論文リスト
- OlympiadBench: A Challenging Benchmark for Promoting AGI with
Olympiad-Level Bilingual Multimodal Scientific Problems [63.451205097356926]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションから8,952の問題を取り上げている。
最も優れたモデルであるGPT-4Vは、オリンピアドベンチの平均スコアは17.23%に達し、物理では11.28%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - Evaluating GPT-4's Vision Capabilities on Brazilian University Admission
Exams [14.801853435122908]
本稿では,文章要素と視覚要素の両方を組み込んだ,入学試験における言語モデルの評価フレームワークを提案する。
ブラジルの大学が採用している入学試験であるExame Nacional do Ensino M'edio(ENEM)の2つの最新版を評価した。
ハイライトの1つは、視覚コンテンツを翻訳するテキストキャプションが画像の直接使用よりも優れており、視覚モデルに改善の余地があることである。
論文 参考訳(メタデータ) (2023-11-23T19:20:59Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Large Language Models on Wikipedia-Style Survey Generation: an
Evaluation in NLP Concepts [21.853957046279533]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Exploring the MIT Mathematics and EECS Curriculum Using Large Language
Models [21.86774454216937]
我々は,MITの数学・脳科学専攻の卒業要件を満たすために,大規模言語モデルの能力を評価する。
その結果, GPT-3.5はMITのカリキュラム全体の3分の1を解くのに成功し, GPT-4は迅速なエンジニアリングにより, 画像に基づく質問を除いたテストセット上で完璧に解けることがわかった。
論文 参考訳(メタデータ) (2023-06-15T09:48:14Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - GPT Takes the Bar Exam [0.0]
GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。
最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
論文 参考訳(メタデータ) (2022-12-29T18:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。