論文の概要: Professional Certification Benchmark Dataset: The First 500 Jobs For
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.05377v1
- Date: Sun, 7 May 2023 00:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:59:01.459443
- Title: Professional Certification Benchmark Dataset: The First 500 Jobs For
Large Language Models
- Title(参考訳): professional certification benchmark dataset: 大規模言語モデルのための最初の500ジョブ
- Authors: David Noever and Matt Ciolino
- Abstract要約: この調査は、大規模な言語モデルをテストし、採用可能なスキルを評価するための専門的な認定調査を作成する。
GPT-3とTurbo-GPT3.5の2つのAIモデルのパフォーマンスを、1149のプロフェッショナル認定のベンチマークデータセットで比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The research creates a professional certification survey to test large
language models and evaluate their employable skills. It compares the
performance of two AI models, GPT-3 and Turbo-GPT3.5, on a benchmark dataset of
1149 professional certifications, emphasizing vocational readiness rather than
academic performance. GPT-3 achieved a passing score (>70% correct) in 39% of
the professional certifications without fine-tuning or exam preparation. The
models demonstrated qualifications in various computer-related fields, such as
cloud and virtualization, business analytics, cybersecurity, network setup and
repair, and data analytics. Turbo-GPT3.5 scored 100% on the valuable Offensive
Security Certified Professional (OSCP) exam. The models also displayed
competence in other professional domains, including nursing, licensed
counseling, pharmacy, and teaching. Turbo-GPT3.5 passed the Financial Industry
Regulatory Authority (FINRA) Series 6 exam with a 70% grade without
preparation. Interestingly, Turbo-GPT3.5 performed well on customer service
tasks, suggesting potential applications in human augmentation for chatbots in
call centers and routine advice services. The models also score well on sensory
and experience-based tests such as wine sommelier, beer taster, emotional
quotient, and body language reader. The OpenAI model improvement from Babbage
to Turbo resulted in a median 60% better-graded performance in less than a few
years. This progress suggests that focusing on the latest model's shortcomings
could lead to a highly performant AI capable of mastering the most demanding
professional certifications. We open-source the benchmark to expand the range
of testable professional skills as the models improve or gain emergent
capabilities.
- Abstract(参考訳): この調査は、大規模な言語モデルをテストし、採用可能なスキルを評価するための専門的な認定調査を作成する。
GPT-3とTurbo-GPT3.5の2つのAIモデルのパフォーマンスを1149のプロフェッショナル認定のベンチマークデータセットで比較し、学術的なパフォーマンスよりも職業的準備性を強調する。
GPT-3は、微調整や試験の準備なしに、プロ認定の39%でパススコア(70%以上)を達成した。
これらのモデルは、クラウドや仮想化、ビジネス分析、サイバーセキュリティ、ネットワークのセットアップと修復、データ分析など、さまざまなコンピュータ関連分野の資格を示した。
ターボGPT3.5は、OSCP(Offensive Security Certified Professional)試験で100%得点した。
このモデルは、看護、認可カウンセリング、薬局、教育など、他の専門分野の能力も示した。
ターボGPT3.5はファイナンシャル・インダストリー・レギュレーション・オーソリティ(FINRA)シリーズ6の試験に合格し、70%の成績を残した。
興味深いことに、turbo-gpt3.5はカスタマーサービスのタスクでうまく動作し、コールセンターや日常的なアドバイスサービスにおけるチャットボットの人的拡張の潜在的な応用を示唆している。
このモデルはまた、ワインソムリエ、ビールテイザー、感情的商、ボディランゲージリーダーなどの感覚と経験に基づくテストでもよく評価される。
BabbageからTurboへのOpenAIモデルの改良により、数年以内に中央値の60%のパフォーマンスが向上した。
この進歩は、最新のモデルの欠点に注目することが、最も要求の多いプロフェッショナル認定を習得できる高性能なAIにつながることを示唆している。
テスト可能なプロフェッショナルスキルの範囲を広げるためのベンチマークをオープンソースとして公開しています。
関連論文リスト
- Evaluating AI Vocational Skills Through Professional Testing [0.0]
本研究は,GPT-3とTurbo-GPT3.5の2つのAIモデルの職業能力を評価することに焦点を当てた。
どちらのモデルも、従来の機械の役割以外の感覚や経験に基づくテストでよく評価された。
調査によると、OpenAIのBabageからTurboへのモデル改善により、数年のうちにグレードスケールでのパフォーマンスが60%向上した。
論文 参考訳(メタデータ) (2023-12-17T04:41:59Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - Performance of Large Language Models in a Computer Science Degree
Program [0.5330240017302619]
本稿では,応用科学大学大学院コンピュータサイエンス学位課程における大規模言語モデルの性能について述べる。
講義資料,運動課題,過去の試験をモデルに促すことで,各分野のコンピュータサイエンス分野にまたがってその習熟度を評価することを目指す。
We found that ChatGPT-3.5 averageed 79.9% of the total score in 10 test module, BingAI achieved 68.4%, and LLaMa, in the 6600 billion parameter variant, 20%。
論文 参考訳(メタデータ) (2023-07-24T14:17:00Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z) - GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。
サンプルREG試験では,テキストダビンシ003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力が著しく低下していることが判明した。
最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
論文 参考訳(メタデータ) (2023-01-11T11:30:42Z) - GPT Takes the Bar Exam [0.0]
GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。
最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
論文 参考訳(メタデータ) (2022-12-29T18:19:43Z) - ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training
for Language Understanding and Generation [50.036392756981016]
GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。
ERNIE 3.0という名前の統一フレームワークが、大規模な知識強化モデルの事前トレーニングのために提案された。
ERNIE 3.0は様々なNLPタスクにおいて最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-23T17:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。