論文の概要: Evaluating Large Language Models on the GMAT: Implications for the
Future of Business Education
- arxiv url: http://arxiv.org/abs/2401.02985v1
- Date: Tue, 2 Jan 2024 03:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:34:54.448586
- Title: Evaluating Large Language Models on the GMAT: Implications for the
Future of Business Education
- Title(参考訳): GMATにおける大規模言語モデルの評価:ビジネス教育の将来への示唆
- Authors: Vahid Ashrafimoghari, Necdet G\"urkan, and Jordan W. Suchow
- Abstract要約: 本研究では,7大言語モデル(LLM)の性能評価を行う最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
- 参考スコア(独自算出の注目度): 0.13654846342364302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of artificial intelligence (AI), especially in the domain
of Large Language Models (LLMs) and generative AI, has opened new avenues for
application across various fields, yet its role in business education remains
underexplored. This study introduces the first benchmark to assess the
performance of seven major LLMs, OpenAI's models (GPT-3.5 Turbo, GPT-4, and
GPT-4 Turbo), Google's models (PaLM 2, Gemini 1.0 Pro), and Anthropic's models
(Claude 2 and Claude 2.1), on the GMAT, which is a key exam in the admission
process for graduate business programs. Our analysis shows that most LLMs
outperform human candidates, with GPT-4 Turbo not only outperforming the other
models but also surpassing the average scores of graduate students at top
business schools. Through a case study, this research examines GPT-4 Turbo's
ability to explain answers, evaluate responses, identify errors, tailor
instructions, and generate alternative scenarios. The latest LLM versions,
GPT-4 Turbo, Claude 2.1, and Gemini 1.0 Pro, show marked improvements in
reasoning tasks compared to their predecessors, underscoring their potential
for complex problem-solving. While AI's promise in education, assessment, and
tutoring is clear, challenges remain. Our study not only sheds light on LLMs'
academic potential but also emphasizes the need for careful development and
application of AI in education. As AI technology advances, it is imperative to
establish frameworks and protocols for AI interaction, verify the accuracy of
AI-generated content, ensure worldwide access for diverse learners, and create
an educational environment where AI supports human expertise. This research
sets the stage for further exploration into the responsible use of AI to enrich
educational experiences and improve exam preparation and assessment methods.
- Abstract(参考訳): 人工知能(AI)の急速な進化、特にLarge Language Models(LLMs)とジェネレーティブAIの分野において、さまざまな分野に適用するための新たな道が開かれたが、ビジネス教育におけるその役割は未解明のままである。
本研究は, GMATにおける7つのLLM, OpenAI のモデル (GPT-3.5 Turbo, GPT-4, GPT-4 Turbo) , Google のモデル (PaLM 2, Gemini 1.0 Pro) および Anthropic のモデル (Claude 2 と Claude 2.1) のパフォーマンスを評価するための最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
本研究は,gpt-4turboの解答説明,応答評価,エラーの特定,命令の調整,代替シナリオの作成などを行う能力について検討する。
最新のLCMバージョンであるGPT-4 Turbo、Claude 2.1、Gemini 1.0 Proは、先代モデルと比べて推論タスクが大幅に改善され、複雑な問題解決の可能性を示している。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
我々の研究は、LLMの学術的可能性だけでなく、教育におけるAIの慎重な開発と応用の必要性も強調している。
AI技術が進歩するにつれて、AIインタラクションのためのフレームワークとプロトコルを確立し、AI生成したコンテンツの正確性を検証し、さまざまな学習者への世界的なアクセスを確保し、AIが人間の専門知識をサポートする教育環境を構築することが不可欠である。
この研究は、教育経験を豊かにし、試験準備と評価方法を改善するために、AIの責任を負う使用についてさらなる調査を行う段階を定めている。
関連論文リスト
- Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [95.96983812740683]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である
MLMとWMは、その顕著な知覚、相互作用、推論能力のために、大きな注目を集めている。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-07-09T14:14:47Z) - Visions of a Discipline: Analyzing Introductory AI Courses on YouTube [11.209406323898019]
われわれはYouTubeで最も視聴された20のAIコースを分析した。
導入型AIコースは、AIの倫理的または社会的課題に有意義に関わっていない。
我々は、よりバランスのとれた視点を示すために、AIの倫理的課題を強調しておくことを推奨する。
論文 参考訳(メタデータ) (2024-05-31T01:48:42Z) - Towards Integrating Emerging AI Applications in SE Education [4.956066467858058]
本稿では,AI分野における現在のトレンドの体系的分析の予備的結果を示す。
我々は、AIアプリケーションとさらなる研究分野の一連の機会について論じる。
論文 参考訳(メタデータ) (2024-05-28T11:21:45Z) - AI-Tutoring in Software Engineering Education [0.7631288333466648]
我々は,GPT-3.5-TurboモデルをAI-TutorとしてAPASアルテミスに組み込むことで,探索的なケーススタディを行った。
この発見は、タイムリーなフィードバックやスケーラビリティといった利点を浮き彫りにしている。
しかし,AI-Tutor を用いた場合,一般的な応答や学習進行抑制に対する学生の懸念も明らかであった。
論文 参考訳(メタデータ) (2024-04-03T08:15:08Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Performance of ChatGPT on the US Fundamentals of Engineering Exam:
Comprehensive Assessment of Proficiency and Potential Implications for
Professional Environmental Engineering Practice [0.0]
本研究は, GPT-4 モデルである ChatGPT を用いて, 工学基礎(FE) 環境評価における良好な性能を実現することの実現可能性と有効性について検討する。
この結果は、ChatGPTモデルの連続反復における数学的能力の顕著な改善を反映し、複雑な工学的問題を解く可能性を示している。
論文 参考訳(メタデータ) (2023-04-20T16:54:34Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to
GPT-5 All You Need? [112.12974778019304]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。
純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。
本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文 参考訳(メタデータ) (2023-03-21T10:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。