論文の概要: Evaluating the Performance of Large Language Models for Spanish Language
in Undergraduate Admissions Exams
- arxiv url: http://arxiv.org/abs/2312.16845v1
- Date: Thu, 28 Dec 2023 06:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 17:18:40.014045
- Title: Evaluating the Performance of Large Language Models for Spanish Language
in Undergraduate Admissions Exams
- Title(参考訳): 大学入学試験におけるスペイン語大言語モデルの性能評価
- Authors: Sabino Miranda, Obdulia Pichardo-Lagunas, Bella Mart\'inez-Seis,
Pierre Baldi
- Abstract要約: 本研究では,メキシコの国立ポリテクニック研究所が提案する学部受験試験における大規模言語モデル,特にGPT-3.5とBARDの性能を評価する。
どちらのモデルも習熟度を示し、各学術プログラムの受入スコアを最大75%まで越えた。
- 参考スコア(独自算出の注目度): 4.974500659156055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the performance of large language models, specifically
GPT-3.5 and BARD (supported by Gemini Pro model), in undergraduate admissions
exams proposed by the National Polytechnic Institute in Mexico. The exams cover
Engineering/Mathematical and Physical Sciences, Biological and Medical
Sciences, and Social and Administrative Sciences. Both models demonstrated
proficiency, exceeding the minimum acceptance scores for respective academic
programs to up to 75% for some academic programs. GPT-3.5 outperformed BARD in
Mathematics and Physics, while BARD performed better in History and questions
related to factual information. Overall, GPT-3.5 marginally surpassed BARD with
scores of 60.94% and 60.42%, respectively.
- Abstract(参考訳): 本研究は,メキシコの国立ポリテクニック研究所が提案する学部受験試験における大規模言語モデル,特にGPT-3.5とBARD(ジェミニ・プロモデル)の性能を評価する。
試験は工学・数学・物理科学、生物・医学、社会・行政科学を対象とする。
どちらのモデルも熟練度を示し、各アカデミックプログラムの最低受入得点を75%まで上回った。
GPT-3.5は数学と物理学においてBARDより優れており、BARDは歴史や事実に関する情報に関する質問では優れていた。
GPT-3.5は、それぞれ60.94%と60.42%のスコアでBARDを上回った。
関連論文リスト
- OlympiadBench: A Challenging Benchmark for Promoting AGI with
Olympiad-Level Bilingual Multimodal Scientific Problems [63.451205097356926]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションから8,952の問題を取り上げている。
最も優れたモデルであるGPT-4Vは、オリンピアドベンチの平均スコアは17.23%に達し、物理では11.28%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning
Benchmark for Expert AGI [65.05714028679317]
MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。
被験者は30名、サブフィールドは183名、画像タイプは30名である。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文 参考訳(メタデータ) (2023-11-27T17:33:21Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - Performance of Large Language Models in a Computer Science Degree
Program [0.5330240017302619]
本稿では,応用科学大学大学院コンピュータサイエンス学位課程における大規模言語モデルの性能について述べる。
講義資料,運動課題,過去の試験をモデルに促すことで,各分野のコンピュータサイエンス分野にまたがってその習熟度を評価することを目指す。
We found that ChatGPT-3.5 averageed 79.9% of the total score in 10 test module, BingAI achieved 68.4%, and LLaMa, in the 6600 billion parameter variant, 20%。
論文 参考訳(メタデータ) (2023-07-24T14:17:00Z) - Exploring the MIT Mathematics and EECS Curriculum Using Large Language
Models [21.86774454216937]
我々は,MITの数学・脳科学専攻の卒業要件を満たすために,大規模言語モデルの能力を評価する。
その結果, GPT-3.5はMITのカリキュラム全体の3分の1を解くのに成功し, GPT-4は迅速なエンジニアリングにより, 画像に基づく質問を除いたテストセット上で完璧に解けることがわかった。
論文 参考訳(メタデータ) (2023-06-15T09:48:14Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission
Exams [4.2706617195518195]
本研究では, 言語モデル (LM) の高精細度検定における能力について検討する。
この試験は、質問が複数の分野の知識にまたがる可能性があるため、LMにとって難しい課題となる。
最高性能のGPT-4は87%の精度を達成し、GPT-3.5を11ポイント上回った。
論文 参考訳(メタデータ) (2023-03-29T20:10:13Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - GPT Takes the Bar Exam [0.0]
GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。
最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
論文 参考訳(メタデータ) (2022-12-29T18:19:43Z) - Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。
このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。
我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文 参考訳(メタデータ) (2022-06-29T18:54:49Z) - Reasoning Like Program Executors [48.819113224699976]
POETは言語モデルにデータ駆動アプローチを通じてプログラム実行者にある推論知識を抽出する権限を与える。
PoETは自然言語推論におけるモデルパフォーマンスを大幅に向上させることができる。
PoETは推論の事前トレーニングに新たなゲートを開く。
論文 参考訳(メタデータ) (2022-01-27T12:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。