Fugu-MT 論文翻訳(概要): AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models

論文の概要: AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models

arxiv url: http://arxiv.org/abs/2304.06364v1
Date: Thu, 13 Apr 2023 09:39:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-14 15:02:52.151082
Title: AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models
Title（参考訳）: AGIEval: ファンデーションモデルを評価するための人間中心ベンチマーク
Authors: Wanjun Zhong, Ruixiang Cui, Yiduo Guo, Yaobo Liang, Shuai Lu, Yanlin Wang, Amin Saied, Weizhu Chen and Nan Duan
Abstract要約: 我々は、人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGvalを紹介する。 GPT-4, ChatGPT, Text-Davinciなど, 最先端の基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
参考スコア（独自算出の注目度）: 61.901107707799035
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating the general abilities of foundation models to tackle human-level tasks is a vital aspect of their development and application in the pursuit of Artificial General Intelligence (AGI). Traditional benchmarks, which rely on artificial datasets, may not accurately represent human-level capabilities. In this paper, we introduce AGIEval, a novel benchmark specifically designed to assess foundation model in the context of human-centric standardized exams, such as college entrance exams, law school admission tests, math competitions, and lawyer qualification tests. We evaluate several state-of-the-art foundation models, including GPT-4, ChatGPT, and Text-Davinci-003, using this benchmark. Impressively, GPT-4 surpasses average human performance on SAT, LSAT, and math competitions, attaining a 95% accuracy rate on the SAT Math test and a 92.5% accuracy on the English test of the Chinese national college entrance exam. This demonstrates the extraordinary performance of contemporary foundation models. In contrast, we also find that GPT-4 is less proficient in tasks that require complex reasoning or specific domain knowledge. Our comprehensive analyses of model capabilities (understanding, knowledge, reasoning, and calculation) reveal these models' strengths and limitations, providing valuable insights into future directions for enhancing their general capabilities. By concentrating on tasks pertinent to human cognition and decision-making, our benchmark delivers a more meaningful and robust evaluation of foundation models' performance in real-world scenarios. The data, code, and all model outputs are released in https://github.com/microsoft/AGIEval.
Abstract（参考訳）: 人間レベルのタスクに取り組むための基礎モデルの一般的な能力を評価することは、その開発と人工知能(agi)の追求に不可欠な側面である。従来のベンチマークは、人工的なデータセットに依存しているが、人間レベルの能力を正確に表現するものではない。本稿では,大学入学試験,ロースクール入学試験,数学コンペ,弁護士資格試験など,人間中心の標準化試験の文脈において基礎モデルを評価するための新しいベンチマークであるagievalを紹介する。このベンチマークを用いて,GPT-4,ChatGPT,Text-Davinci-003などの最先端基盤モデルの評価を行った。印象的なことに、GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。これは現代の基礎モデルの並外れた性能を示している。対照的に、GPT-4は複雑な推論や特定のドメイン知識を必要とするタスクでは未熟である。モデル能力(理解、知識、推論、計算)に関する包括的な分析は、これらのモデルの強みと限界を明らかにし、それらの一般的な能力を高めるための将来の方向性に関する貴重な洞察を提供する。人間の認知と意思決定に関連するタスクに集中することで、実際のシナリオにおける基礎モデルのパフォーマンスをより有意義で堅牢な評価を行うことができます。データ、コード、およびすべてのモデル出力はhttps://github.com/microsoft/AGIEval.comでリリースされる。

関連論文リスト

Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad [0.8030359871216614]
我々は2025年のUSAMOの6つの問題に対して、最先端の推論モデルを評価する。 Gemini-2.5-Proのみが25%という非自明なスコアを達成している。以上の結果から,現在のLLMは厳密な数学的推論作業には不十分であることが示唆された。
論文参考訳（メタデータ） (2025-03-27T19:21:05Z)
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol [2.3759432635713895]
我々は173の研究をレビューし、204のAI4SEベンチマークを特定します。これらのベンチマークを分類し、それらの制限を分析し、プラクティスのギャップを明らかにする。レビューに基づいて、関連するベンチマークを見つけるセマンティック検索ツールであるBenchScoutを開発した。次に、HumanEval、HumanEvalPlus、HumanEvalNextの10つの最先端コード言語モデルを評価した。HumanEvalNextでは、HumanEvalとHumanEvalPlusと比較して、パス@1のスコアが31.22%、19.94%減少した。
論文参考訳（メタデータ） (2025-03-07T18:44:32Z)
Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming [22.344985623878408]
GPT-4oやLlama3のような最先端のモデルは、平均的な学生のパフォーマンスとほとんど一致しない。我々はこれらのモデルを新しい合成データ生成手法を用いて微調整する。生成モデルにおける計算思考の強化に関するさらなる研究を促進するため、完全な実装とデータセットをリリースする。
論文参考訳（メタデータ） (2024-06-14T10:02:52Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。 GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文参考訳（メタデータ） (2024-02-21T18:49:26Z)
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。 GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文参考訳（メタデータ） (2023-10-03T17:57:24Z)
Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。学術分野にまたがる大規模な中国語モデルの生成能力を評価する。 Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文参考訳（メタデータ） (2023-08-09T09:22:56Z)
ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。 ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文参考訳（メタデータ） (2023-07-25T17:55:19Z)
COM2SENSE: A Commonsense Reasoning Benchmark with Complementary Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2021-06-02T06:31:55Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。