論文の概要: Evaluating AI Vocational Skills Through Professional Testing
- arxiv url: http://arxiv.org/abs/2312.10603v1
- Date: Sun, 17 Dec 2023 04:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:46:45.733124
- Title: Evaluating AI Vocational Skills Through Professional Testing
- Title(参考訳): プロフェッショナルテストによるAI職業スキルの評価
- Authors: David Noever, Matt Ciolino
- Abstract要約: 本研究は,GPT-3とTurbo-GPT3.5の2つのAIモデルの職業能力を評価することに焦点を当てた。
どちらのモデルも、従来の機械の役割以外の感覚や経験に基づくテストでよく評価された。
調査によると、OpenAIのBabageからTurboへのモデル改善により、数年のうちにグレードスケールでのパフォーマンスが60%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using a novel professional certification survey, the study focuses on
assessing the vocational skills of two highly cited AI models, GPT-3 and
Turbo-GPT3.5. The approach emphasizes the importance of practical readiness
over academic performance by examining the models' performances on a benchmark
dataset consisting of 1149 professional certifications. This study also
includes a comparison with human test scores, providing perspective on the
potential of AI models to match or even surpass human performance in
professional certifications. GPT-3, even without any fine-tuning or exam
preparation, managed to achieve a passing score (over 70% correct) on 39% of
the professional certifications. It showcased proficiency in computer-related
fields, including cloud and virtualization, business analytics, cybersecurity,
network setup and repair, and data analytics. Turbo-GPT3.5, on the other hand,
scored a perfect 100% on the highly regarded Offensive Security Certified
Professional (OSCP) exam. This model also demonstrated competency in diverse
professional fields, such as nursing, licensed counseling, pharmacy, and
aviation. Turbo-GPT3.5 exhibited strong performance on customer service tasks,
indicating potential use cases in enhancing chatbots for call centers and
routine advice services. Both models also scored well on sensory and
experience-based tests outside a machine's traditional roles, including wine
sommelier, beer tasting, emotional quotient, and body language reading. The
study found that OpenAI's model improvement from Babbage to Turbo led to a 60%
better performance on the grading scale within a few years. This progress
indicates that addressing the current model's limitations could yield an AI
capable of passing even the most rigorous professional certifications.
- Abstract(参考訳): GPT-3とTurbo-GPT3.5の2つの高度に引用されたAIモデルの職業スキルを評価することに焦点を当てた。
このアプローチは、1149のプロフェッショナル認定からなるベンチマークデータセット上で、モデルのパフォーマンスを調べることによって、学術的パフォーマンスよりも実用的な準備の重要性を強調する。
この研究は、人間のテストスコアとの比較も含み、専門家の認定試験においてAIモデルが人間のパフォーマンスにマッチしたり、上回ったりすることの可能性を展望する。
GPT-3は、微調整や試験の準備がなくても、プロ認定の39%で合格点(70%以上)を達成できた。
クラウドや仮想化、ビジネス分析、サイバーセキュリティ、ネットワークのセットアップと修復、データ分析など、コンピュータ関連分野の熟練度が紹介された。
一方、Turbo-GPT3.5は、高い評価を受けたOffensive Security Certified Professional(OSCP)試験で100%のスコアを獲得した。
このモデルはまた、看護、認可カウンセリング、薬局、航空など様々な専門分野において能力を示した。
Turbo-GPT3.5は、カスタマーサービスタスクに強いパフォーマンスを示し、コールセンタや定期的なアドバイスサービスのためのチャットボットを強化する潜在的なユースケースを示した。
どちらのモデルも、ワインソムリエ、ビールのテイスティング、感情的な引用、ボディランゲージの読書など、機械の伝統的な役割以外の感覚や経験に基づくテストでよく評価された。
研究の結果、openaiのモデルがバベッジからターボへと改良され、数年でグレーディングスケールで60%パフォーマンスが向上したことがわかった。
この進歩は、現在のモデルの制限に対処することで、最も厳格なプロフェッショナル認定をパスできるAIが得られることを示している。
関連論文リスト
- Development of an NLP-driven computer-based test guide for visually
impaired students [0.28647133890966986]
視覚障害者のためのNLP駆動型コンピュータベーステストガイドを提案する。
リアルタイムの支援と視覚障害のある生徒への支援を提供するために、事前に訓練された音声技術を採用している。
論文 参考訳(メタデータ) (2024-01-22T21:59:00Z) - Evaluating Large Language Models on the GMAT: Implications for the
Future of Business Education [0.13654846342364302]
本研究では,7大言語モデル(LLM)の性能評価を行う最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
論文 参考訳(メタデータ) (2024-01-02T03:54:50Z) - From GPT-3 to GPT-4: On the Evolving Efficacy of LLMs to Answer
Multiple-choice Questions for Programming Classes in Higher Education [2.6626950367610402]
マルチチョイス質問(MCQ)に対する回答生成における3つの生成事前学習型トランスフォーマー(GPT)モデルの進化的有効性について検討する。
私たちは、ChatGPT(Nov '22)のリリース前、リリース時、そして今日(つまり8月23日)のモデルの能力の違いに注目します。
論文 参考訳(メタデータ) (2023-11-16T02:46:15Z) - Professional Certification Benchmark Dataset: The First 500 Jobs For
Large Language Models [0.0]
この調査は、大規模な言語モデルをテストし、採用可能なスキルを評価するための専門的な認定調査を作成する。
GPT-3とTurbo-GPT3.5の2つのAIモデルのパフォーマンスを、1149のプロフェッショナル認定のベンチマークデータセットで比較する。
論文 参考訳(メタデータ) (2023-05-07T00:56:58Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。
サンプルREG試験では,テキストダビンシ003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力が著しく低下していることが判明した。
最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
論文 参考訳(メタデータ) (2023-01-11T11:30:42Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic
Approach [59.77710485234197]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Pre-Trained Models: Past, Present and Future [126.21572378910746]
大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。
知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的にエンコードされた豊富な知識は、さまざまな下流タスクの恩恵を受けることができる。
AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。
論文 参考訳(メタデータ) (2021-06-14T02:40:32Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。