論文の概要: Evaluating Large Language Models on the GMAT: Implications for the
Future of Business Education
- arxiv url: http://arxiv.org/abs/2401.02985v1
- Date: Tue, 2 Jan 2024 03:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:34:54.448586
- Title: Evaluating Large Language Models on the GMAT: Implications for the
Future of Business Education
- Title(参考訳): GMATにおける大規模言語モデルの評価:ビジネス教育の将来への示唆
- Authors: Vahid Ashrafimoghari, Necdet G\"urkan, and Jordan W. Suchow
- Abstract要約: 本研究では,7大言語モデル(LLM)の性能評価を行う最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
- 参考スコア(独自算出の注目度): 0.13654846342364302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of artificial intelligence (AI), especially in the domain
of Large Language Models (LLMs) and generative AI, has opened new avenues for
application across various fields, yet its role in business education remains
underexplored. This study introduces the first benchmark to assess the
performance of seven major LLMs, OpenAI's models (GPT-3.5 Turbo, GPT-4, and
GPT-4 Turbo), Google's models (PaLM 2, Gemini 1.0 Pro), and Anthropic's models
(Claude 2 and Claude 2.1), on the GMAT, which is a key exam in the admission
process for graduate business programs. Our analysis shows that most LLMs
outperform human candidates, with GPT-4 Turbo not only outperforming the other
models but also surpassing the average scores of graduate students at top
business schools. Through a case study, this research examines GPT-4 Turbo's
ability to explain answers, evaluate responses, identify errors, tailor
instructions, and generate alternative scenarios. The latest LLM versions,
GPT-4 Turbo, Claude 2.1, and Gemini 1.0 Pro, show marked improvements in
reasoning tasks compared to their predecessors, underscoring their potential
for complex problem-solving. While AI's promise in education, assessment, and
tutoring is clear, challenges remain. Our study not only sheds light on LLMs'
academic potential but also emphasizes the need for careful development and
application of AI in education. As AI technology advances, it is imperative to
establish frameworks and protocols for AI interaction, verify the accuracy of
AI-generated content, ensure worldwide access for diverse learners, and create
an educational environment where AI supports human expertise. This research
sets the stage for further exploration into the responsible use of AI to enrich
educational experiences and improve exam preparation and assessment methods.
- Abstract(参考訳): 人工知能(AI)の急速な進化、特にLarge Language Models(LLMs)とジェネレーティブAIの分野において、さまざまな分野に適用するための新たな道が開かれたが、ビジネス教育におけるその役割は未解明のままである。
本研究は, GMATにおける7つのLLM, OpenAI のモデル (GPT-3.5 Turbo, GPT-4, GPT-4 Turbo) , Google のモデル (PaLM 2, Gemini 1.0 Pro) および Anthropic のモデル (Claude 2 と Claude 2.1) のパフォーマンスを評価するための最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
本研究は,gpt-4turboの解答説明,応答評価,エラーの特定,命令の調整,代替シナリオの作成などを行う能力について検討する。
最新のLCMバージョンであるGPT-4 Turbo、Claude 2.1、Gemini 1.0 Proは、先代モデルと比べて推論タスクが大幅に改善され、複雑な問題解決の可能性を示している。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
我々の研究は、LLMの学術的可能性だけでなく、教育におけるAIの慎重な開発と応用の必要性も強調している。
AI技術が進歩するにつれて、AIインタラクションのためのフレームワークとプロトコルを確立し、AI生成したコンテンツの正確性を検証し、さまざまな学習者への世界的なアクセスを確保し、AIが人間の専門知識をサポートする教育環境を構築することが不可欠である。
この研究は、教育経験を豊かにし、試験準備と評価方法を改善するために、AIの責任を負う使用についてさらなる調査を行う段階を定めている。
関連論文リスト
- From Automation to Augmentation: Large Language Models Elevating Essay
Scoring Landscape [14.758096079392674]
本研究では,大規模言語モデル(LLM),特に GPT-4 と細調整 GPT-3.5 が,自動エッセイ評価システムにおける有効性について検討した。
パブリックデータセットとプライベートデータセットの両方で実施した総合的な実験は、LLMベースのAESシステムの顕著な利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - ActiveAI: Introducing AI Literacy for Middle School Learners with
Goal-based Scenario Learning [0.0]
ActiveAIプロジェクトは、小学校7~9年生のAI教育における重要な課題に対処する。
このアプリには、スライダー、ステッパー、コレクタなど、さまざまな学習者インプットが組み込まれており、理解を深めている。
このプロジェクトは、現在実装段階にあり、アプリ開発にインテリジェントなチューター設計原則を活用している。
論文 参考訳(メタデータ) (2023-08-21T11:43:43Z) - Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4,
and Human Tutors [21.227955181065948]
我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。
以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
論文 参考訳(メタデータ) (2023-06-29T17:57:40Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Performance of ChatGPT on the US Fundamentals of Engineering Exam:
Comprehensive Assessment of Proficiency and Potential Implications for
Professional Environmental Engineering Practice [0.0]
本研究は, GPT-4 モデルである ChatGPT を用いて, 工学基礎(FE) 環境評価における良好な性能を実現することの実現可能性と有効性について検討する。
この結果は、ChatGPTモデルの連続反復における数学的能力の顕著な改善を反映し、複雑な工学的問題を解く可能性を示している。
論文 参考訳(メタデータ) (2023-04-20T16:54:34Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to
GPT-5 All You Need? [112.12974778019304]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。
純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。
本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文 参考訳(メタデータ) (2023-03-21T10:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。