論文の概要: Evaluating the Performance of Large Language Models for Spanish Language
in Undergraduate Admissions Exams
- arxiv url: http://arxiv.org/abs/2312.16845v1
- Date: Thu, 28 Dec 2023 06:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 17:18:40.014045
- Title: Evaluating the Performance of Large Language Models for Spanish Language
in Undergraduate Admissions Exams
- Title(参考訳): 大学入学試験におけるスペイン語大言語モデルの性能評価
- Authors: Sabino Miranda, Obdulia Pichardo-Lagunas, Bella Mart\'inez-Seis,
Pierre Baldi
- Abstract要約: 本研究では,メキシコの国立ポリテクニック研究所が提案する学部受験試験における大規模言語モデル,特にGPT-3.5とBARDの性能を評価する。
どちらのモデルも習熟度を示し、各学術プログラムの受入スコアを最大75%まで越えた。
- 参考スコア(独自算出の注目度): 4.974500659156055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the performance of large language models, specifically
GPT-3.5 and BARD (supported by Gemini Pro model), in undergraduate admissions
exams proposed by the National Polytechnic Institute in Mexico. The exams cover
Engineering/Mathematical and Physical Sciences, Biological and Medical
Sciences, and Social and Administrative Sciences. Both models demonstrated
proficiency, exceeding the minimum acceptance scores for respective academic
programs to up to 75% for some academic programs. GPT-3.5 outperformed BARD in
Mathematics and Physics, while BARD performed better in History and questions
related to factual information. Overall, GPT-3.5 marginally surpassed BARD with
scores of 60.94% and 60.42%, respectively.
- Abstract(参考訳): 本研究は,メキシコの国立ポリテクニック研究所が提案する学部受験試験における大規模言語モデル,特にGPT-3.5とBARD(ジェミニ・プロモデル)の性能を評価する。
試験は工学・数学・物理科学、生物・医学、社会・行政科学を対象とする。
どちらのモデルも熟練度を示し、各アカデミックプログラムの最低受入得点を75%まで上回った。
GPT-3.5は数学と物理学においてBARDより優れており、BARDは歴史や事実に関する情報に関する質問では優れていた。
GPT-3.5は、それぞれ60.94%と60.42%のスコアでBARDを上回った。
関連論文リスト
- Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - GPT-4 passes most of the 297 written Polish Board Certification Examinations [0.5461938536945723]
本研究では,ポーランド委員会認定試験(Pa'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。
GPTモデルは、特定の専門分野に関する試験において卓越した性能を示しながら、他の分野では完全に失敗するなど、大きく変化した。
論文 参考訳(メタデータ) (2024-04-29T09:08:22Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - Performance of Large Language Models in a Computer Science Degree
Program [0.5330240017302619]
本稿では,応用科学大学大学院コンピュータサイエンス学位課程における大規模言語モデルの性能について述べる。
講義資料,運動課題,過去の試験をモデルに促すことで,各分野のコンピュータサイエンス分野にまたがってその習熟度を評価することを目指す。
We found that ChatGPT-3.5 averageed 79.9% of the total score in 10 test module, BingAI achieved 68.4%, and LLaMa, in the 6600 billion parameter variant, 20%。
論文 参考訳(メタデータ) (2023-07-24T14:17:00Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission
Exams [4.2706617195518195]
本研究では, 言語モデル (LM) の高精細度検定における能力について検討する。
この試験は、質問が複数の分野の知識にまたがる可能性があるため、LMにとって難しい課題となる。
最高性能のGPT-4は87%の精度を達成し、GPT-3.5を11ポイント上回った。
論文 参考訳(メタデータ) (2023-03-29T20:10:13Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - GPT Takes the Bar Exam [0.0]
GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。
最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
論文 参考訳(メタデータ) (2022-12-29T18:19:43Z) - Reasoning Like Program Executors [48.819113224699976]
POETは言語モデルにデータ駆動アプローチを通じてプログラム実行者にある推論知識を抽出する権限を与える。
PoETは自然言語推論におけるモデルパフォーマンスを大幅に向上させることができる。
PoETは推論の事前トレーニングに新たなゲートを開く。
論文 参考訳(メタデータ) (2022-01-27T12:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。