論文の概要: Evaluating AI Vocational Skills Through Professional Testing
- arxiv url: http://arxiv.org/abs/2312.10603v1
- Date: Sun, 17 Dec 2023 04:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:46:45.733124
- Title: Evaluating AI Vocational Skills Through Professional Testing
- Title(参考訳): プロフェッショナルテストによるAI職業スキルの評価
- Authors: David Noever, Matt Ciolino
- Abstract要約: 本研究は,GPT-3とTurbo-GPT3.5の2つのAIモデルの職業能力を評価することに焦点を当てた。
どちらのモデルも、従来の機械の役割以外の感覚や経験に基づくテストでよく評価された。
調査によると、OpenAIのBabageからTurboへのモデル改善により、数年のうちにグレードスケールでのパフォーマンスが60%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using a novel professional certification survey, the study focuses on
assessing the vocational skills of two highly cited AI models, GPT-3 and
Turbo-GPT3.5. The approach emphasizes the importance of practical readiness
over academic performance by examining the models' performances on a benchmark
dataset consisting of 1149 professional certifications. This study also
includes a comparison with human test scores, providing perspective on the
potential of AI models to match or even surpass human performance in
professional certifications. GPT-3, even without any fine-tuning or exam
preparation, managed to achieve a passing score (over 70% correct) on 39% of
the professional certifications. It showcased proficiency in computer-related
fields, including cloud and virtualization, business analytics, cybersecurity,
network setup and repair, and data analytics. Turbo-GPT3.5, on the other hand,
scored a perfect 100% on the highly regarded Offensive Security Certified
Professional (OSCP) exam. This model also demonstrated competency in diverse
professional fields, such as nursing, licensed counseling, pharmacy, and
aviation. Turbo-GPT3.5 exhibited strong performance on customer service tasks,
indicating potential use cases in enhancing chatbots for call centers and
routine advice services. Both models also scored well on sensory and
experience-based tests outside a machine's traditional roles, including wine
sommelier, beer tasting, emotional quotient, and body language reading. The
study found that OpenAI's model improvement from Babbage to Turbo led to a 60%
better performance on the grading scale within a few years. This progress
indicates that addressing the current model's limitations could yield an AI
capable of passing even the most rigorous professional certifications.
- Abstract(参考訳): GPT-3とTurbo-GPT3.5の2つの高度に引用されたAIモデルの職業スキルを評価することに焦点を当てた。
このアプローチは、1149のプロフェッショナル認定からなるベンチマークデータセット上で、モデルのパフォーマンスを調べることによって、学術的パフォーマンスよりも実用的な準備の重要性を強調する。
この研究は、人間のテストスコアとの比較も含み、専門家の認定試験においてAIモデルが人間のパフォーマンスにマッチしたり、上回ったりすることの可能性を展望する。
GPT-3は、微調整や試験の準備がなくても、プロ認定の39%で合格点(70%以上)を達成できた。
クラウドや仮想化、ビジネス分析、サイバーセキュリティ、ネットワークのセットアップと修復、データ分析など、コンピュータ関連分野の熟練度が紹介された。
一方、Turbo-GPT3.5は、高い評価を受けたOffensive Security Certified Professional(OSCP)試験で100%のスコアを獲得した。
このモデルはまた、看護、認可カウンセリング、薬局、航空など様々な専門分野において能力を示した。
Turbo-GPT3.5は、カスタマーサービスタスクに強いパフォーマンスを示し、コールセンタや定期的なアドバイスサービスのためのチャットボットを強化する潜在的なユースケースを示した。
どちらのモデルも、ワインソムリエ、ビールのテイスティング、感情的な引用、ボディランゲージの読書など、機械の伝統的な役割以外の感覚や経験に基づくテストでよく評価された。
研究の結果、openaiのモデルがバベッジからターボへと改良され、数年でグレーディングスケールで60%パフォーマンスが向上したことがわかった。
この進歩は、現在のモデルの制限に対処することで、最も厳格なプロフェッショナル認定をパスできるAIが得られることを示している。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - GPT-4 passes most of the 297 written Polish Board Certification Examinations [0.5461938536945723]
本研究では,ポーランド委員会認定試験(Pa'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。
GPTモデルは、特定の専門分野に関する試験において卓越した性能を示しながら、他の分野では完全に失敗するなど、大きく変化した。
論文 参考訳(メタデータ) (2024-04-29T09:08:22Z) - Development of an NLP-driven computer-based test guide for visually
impaired students [0.28647133890966986]
視覚障害者のためのNLP駆動型コンピュータベーステストガイドを提案する。
リアルタイムの支援と視覚障害のある生徒への支援を提供するために、事前に訓練された音声技術を採用している。
論文 参考訳(メタデータ) (2024-01-22T21:59:00Z) - Evaluating Large Language Models on the GMAT: Implications for the
Future of Business Education [0.13654846342364302]
本研究では,7大言語モデル(LLM)の性能評価を行う最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
論文 参考訳(メタデータ) (2024-01-02T03:54:50Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Professional Certification Benchmark Dataset: The First 500 Jobs For
Large Language Models [0.0]
この調査は、大規模な言語モデルをテストし、採用可能なスキルを評価するための専門的な認定調査を作成する。
GPT-3とTurbo-GPT3.5の2つのAIモデルのパフォーマンスを、1149のプロフェッショナル認定のベンチマークデータセットで比較する。
論文 参考訳(メタデータ) (2023-05-07T00:56:58Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。
サンプルREG試験では,テキストダビンシ003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力が著しく低下していることが判明した。
最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
論文 参考訳(メタデータ) (2023-01-11T11:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。