Fugu-MT 論文翻訳(概要): Evaluating Large Language Models on the GMAT: Implications for the Future of Business Education

論文の概要: Evaluating Large Language Models on the GMAT: Implications for the Future of Business Education

arxiv url: http://arxiv.org/abs/2401.02985v1
Date: Tue, 2 Jan 2024 03:54:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 09:34:54.448586
Title: Evaluating Large Language Models on the GMAT: Implications for the Future of Business Education
Title（参考訳）: GMATにおける大規模言語モデルの評価:ビジネス教育の将来への示唆
Authors: Vahid Ashrafimoghari, Necdet G\"urkan, and Jordan W. Suchow
Abstract要約: 本研究では,7大言語モデル(LLM)の性能評価を行う最初のベンチマークを紹介する。 GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。教育、評価、教育におけるAIの約束は明確だが、課題は残る。
参考スコア（独自算出の注目度）: 0.13654846342364302
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid evolution of artificial intelligence (AI), especially in the domain of Large Language Models (LLMs) and generative AI, has opened new avenues for application across various fields, yet its role in business education remains underexplored. This study introduces the first benchmark to assess the performance of seven major LLMs, OpenAI's models (GPT-3.5 Turbo, GPT-4, and GPT-4 Turbo), Google's models (PaLM 2, Gemini 1.0 Pro), and Anthropic's models (Claude 2 and Claude 2.1), on the GMAT, which is a key exam in the admission process for graduate business programs. Our analysis shows that most LLMs outperform human candidates, with GPT-4 Turbo not only outperforming the other models but also surpassing the average scores of graduate students at top business schools. Through a case study, this research examines GPT-4 Turbo's ability to explain answers, evaluate responses, identify errors, tailor instructions, and generate alternative scenarios. The latest LLM versions, GPT-4 Turbo, Claude 2.1, and Gemini 1.0 Pro, show marked improvements in reasoning tasks compared to their predecessors, underscoring their potential for complex problem-solving. While AI's promise in education, assessment, and tutoring is clear, challenges remain. Our study not only sheds light on LLMs' academic potential but also emphasizes the need for careful development and application of AI in education. As AI technology advances, it is imperative to establish frameworks and protocols for AI interaction, verify the accuracy of AI-generated content, ensure worldwide access for diverse learners, and create an educational environment where AI supports human expertise. This research sets the stage for further exploration into the responsible use of AI to enrich educational experiences and improve exam preparation and assessment methods.
Abstract（参考訳）: 人工知能(AI)の急速な進化、特にLarge Language Models(LLMs)とジェネレーティブAIの分野において、さまざまな分野に適用するための新たな道が開かれたが、ビジネス教育におけるその役割は未解明のままである。本研究は, GMATにおける7つのLLM, OpenAI のモデル (GPT-3.5 Turbo, GPT-4, GPT-4 Turbo) , Google のモデル (PaLM 2, Gemini 1.0 Pro) および Anthropic のモデル (Claude 2 と Claude 2.1) のパフォーマンスを評価するための最初のベンチマークを紹介する。 GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。本研究は,gpt-4turboの解答説明,応答評価,エラーの特定,命令の調整,代替シナリオの作成などを行う能力について検討する。最新のLCMバージョンであるGPT-4 Turbo、Claude 2.1、Gemini 1.0 Proは、先代モデルと比べて推論タスクが大幅に改善され、複雑な問題解決の可能性を示している。教育、評価、教育におけるAIの約束は明確だが、課題は残る。我々の研究は、LLMの学術的可能性だけでなく、教育におけるAIの慎重な開発と応用の必要性も強調している。 AI技術が進歩するにつれて、AIインタラクションのためのフレームワークとプロトコルを確立し、AI生成したコンテンツの正確性を検証し、さまざまな学習者への世界的なアクセスを確保し、AIが人間の専門知識をサポートする教育環境を構築することが不可欠である。この研究は、教育経験を豊かにし、試験準備と評価方法を改善するために、AIの責任を負う使用についてさらなる調査を行う段階を定めている。

関連論文リスト

Bridging the Skills Gap: A Course Model for Modern Generative AI Education [0.0]
生成的AI能力は、産業ではますます重視されるが、高等教育では重視されない。著者らは、さまざまな分野の学生は、AIツールの可能性に責任を持ち、専門的に活用するよう教えなければならないと主張している。
論文参考訳（メタデータ） (2025-11-13T21:24:54Z)
ResearchGPT: Benchmarking and Training LLMs for End-to-End Computer Science Research Workflows [109.34792911044394]
CS-54k(CS-54k)は、コンピュータ科学におけるQ&Aペアの高品質なコーパスである。 CS-4kは、科学研究を支援するAIの能力を評価するためのベンチマークである。 CS-50kは大規模なトレーニングデータセットである。
論文参考訳（メタデータ） (2025-10-23T07:07:35Z)
AI4Research: A Survey of Artificial Intelligence for Scientific Research [55.5452803680643]
我々はAI for Research(AI4Research)に関する総合的な調査を行う。まず、AI4Researchの5つの主要なタスクを分類する系統分類を導入する。主要な研究ギャップを特定し、将来有望な方向性を明らかにする。
論文参考訳（メタデータ） (2025-07-02T17:19:20Z)
Adapting University Policies for Generative AI: Opportunities, Challenges, and Policy Solutions in Higher Education [1.2691047660244332]
生成的人工知能(AI)ツールの急速な普及は、高等教育における変革の時代を後押ししている。この記事では、生成AIがもたらす機会を批判的に検討し、それらがもたらす多面的課題を探求し、堅牢なポリシーソリューションの概要を述べる。
論文参考訳（メタデータ） (2025-06-27T13:49:02Z)
MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文参考訳（メタデータ） (2025-02-20T12:28:23Z)
ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文参考訳（メタデータ） (2024-10-29T21:38:42Z)
ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文参考訳（メタデータ） (2024-10-02T21:42:35Z)
From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents [78.15899922698631]
MAIC(Massive AI-empowered Course)は、LLM駆動のマルチエージェントシステムを活用して、AIが強化された教室を構築するオンライン教育の新たな形態である。中国一の大学である清華大学で予備的な実験を行う。
論文参考訳（メタデータ） (2024-09-05T13:22:51Z)
Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。 GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文参考訳（メタデータ） (2024-08-07T12:11:49Z)
Towards Integrating Emerging AI Applications in SE Education [4.956066467858058]
本稿では,AI分野における現在のトレンドの体系的分析の予備的結果を示す。我々は、AIアプリケーションとさらなる研究分野の一連の機会について論じる。
論文参考訳（メタデータ） (2024-05-28T11:21:45Z)
AI-Tutoring in Software Engineering Education [0.7631288333466648]
我々は,GPT-3.5-TurboモデルをAI-TutorとしてAPASアルテミスに組み込むことで,探索的なケーススタディを行った。この発見は、タイムリーなフィードバックやスケーラビリティといった利点を浮き彫りにしている。しかし,AI-Tutor を用いた場合,一般的な応答や学習進行抑制に対する学生の懸念も明らかであった。
論文参考訳（メタデータ） (2024-04-03T08:15:08Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
Performance of ChatGPT on the US Fundamentals of Engineering Exam: Comprehensive Assessment of Proficiency and Potential Implications for Professional Environmental Engineering Practice [0.0]
本研究は, GPT-4 モデルである ChatGPT を用いて, 工学基礎(FE) 環境評価における良好な性能を実現することの実現可能性と有効性について検討する。この結果は、ChatGPTモデルの連続反復における数学的能力の顕著な改善を反映し、複雑な工学的問題を解く可能性を示している。
論文参考訳（メタデータ） (2023-04-20T16:54:34Z)
OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文参考訳（メタデータ） (2023-04-10T03:55:35Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。