Fugu-MT 論文翻訳(概要): Professional Certification Benchmark Dataset: The First 500 Jobs For Large Language Models

論文の概要: Professional Certification Benchmark Dataset: The First 500 Jobs For Large Language Models

arxiv url: http://arxiv.org/abs/2305.05377v1
Date: Sun, 7 May 2023 00:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-10 12:59:01.459443
Title: Professional Certification Benchmark Dataset: The First 500 Jobs For Large Language Models
Title（参考訳）: professional certification benchmark dataset: 大規模言語モデルのための最初の500ジョブ
Authors: David Noever and Matt Ciolino
Abstract要約: この調査は、大規模な言語モデルをテストし、採用可能なスキルを評価するための専門的な認定調査を作成する。 GPT-3とTurbo-GPT3.5の2つのAIモデルのパフォーマンスを、1149のプロフェッショナル認定のベンチマークデータセットで比較する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The research creates a professional certification survey to test large language models and evaluate their employable skills. It compares the performance of two AI models, GPT-3 and Turbo-GPT3.5, on a benchmark dataset of 1149 professional certifications, emphasizing vocational readiness rather than academic performance. GPT-3 achieved a passing score (>70% correct) in 39% of the professional certifications without fine-tuning or exam preparation. The models demonstrated qualifications in various computer-related fields, such as cloud and virtualization, business analytics, cybersecurity, network setup and repair, and data analytics. Turbo-GPT3.5 scored 100% on the valuable Offensive Security Certified Professional (OSCP) exam. The models also displayed competence in other professional domains, including nursing, licensed counseling, pharmacy, and teaching. Turbo-GPT3.5 passed the Financial Industry Regulatory Authority (FINRA) Series 6 exam with a 70% grade without preparation. Interestingly, Turbo-GPT3.5 performed well on customer service tasks, suggesting potential applications in human augmentation for chatbots in call centers and routine advice services. The models also score well on sensory and experience-based tests such as wine sommelier, beer taster, emotional quotient, and body language reader. The OpenAI model improvement from Babbage to Turbo resulted in a median 60% better-graded performance in less than a few years. This progress suggests that focusing on the latest model's shortcomings could lead to a highly performant AI capable of mastering the most demanding professional certifications. We open-source the benchmark to expand the range of testable professional skills as the models improve or gain emergent capabilities.
Abstract（参考訳）: この調査は、大規模な言語モデルをテストし、採用可能なスキルを評価するための専門的な認定調査を作成する。 GPT-3とTurbo-GPT3.5の2つのAIモデルのパフォーマンスを1149のプロフェッショナル認定のベンチマークデータセットで比較し、学術的なパフォーマンスよりも職業的準備性を強調する。 GPT-3は、微調整や試験の準備なしに、プロ認定の39%でパススコア(70%以上)を達成した。これらのモデルは、クラウドや仮想化、ビジネス分析、サイバーセキュリティ、ネットワークのセットアップと修復、データ分析など、さまざまなコンピュータ関連分野の資格を示した。ターボGPT3.5は、OSCP(Offensive Security Certified Professional)試験で100%得点した。このモデルは、看護、認可カウンセリング、薬局、教育など、他の専門分野の能力も示した。ターボGPT3.5はファイナンシャル・インダストリー・レギュレーション・オーソリティ(FINRA)シリーズ6の試験に合格し、70%の成績を残した。興味深いことに、turbo-gpt3.5はカスタマーサービスのタスクでうまく動作し、コールセンターや日常的なアドバイスサービスにおけるチャットボットの人的拡張の潜在的な応用を示唆している。このモデルはまた、ワインソムリエ、ビールテイザー、感情的商、ボディランゲージリーダーなどの感覚と経験に基づくテストでもよく評価される。 BabbageからTurboへのOpenAIモデルの改良により、数年以内に中央値の60%のパフォーマンスが向上した。この進歩は、最新のモデルの欠点に注目することが、最も要求の多いプロフェッショナル認定を習得できる高性能なAIにつながることを示唆している。テスト可能なプロフェッショナルスキルの範囲を広げるためのベンチマークをオープンソースとして公開しています。

関連論文リスト

Skill-Driven Certification Pathways: Measuring Industry Training Impact on Graduate Employability [3.4034704508343028]
オーストラリアでは、2030年までに毎年約5万2000ドルの新規技術専門家を必要としている。この研究は、MicrosoftのAI-900のような業界認定が、この重要なスキルギャップをいかに埋めるかを調査する。
論文参考訳（メタデータ） (2025-06-05T03:09:05Z)
Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。 TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文参考訳（メタデータ） (2024-11-11T18:59:45Z)
Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文参考訳（メタデータ） (2024-10-17T17:51:40Z)
Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。 GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文参考訳（メタデータ） (2024-08-07T12:11:49Z)
Job-SDF: A Multi-Granularity Dataset for Job Skill Demand Forecasting and Benchmarking [59.87055275344965]
Job-SDFは、ジョブスキルの需要予測モデルをトレーニングし、ベンチマークするために設計されたデータセットである。 2021年から2023年にかけて、中国の大手オンライン求人プラットフォームから集められた1035万件の求人広告に基づいている。本データセットは,職業,企業,地域レベルなど,さまざまな粒度でのスキル需要予測モデルの評価を可能にする。
論文参考訳（メタデータ） (2024-06-17T07:22:51Z)
GPT-4 passes most of the 297 written Polish Board Certification Examinations [0.5461938536945723]
本研究では,ポーランド委員会認定試験(Pa'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。 GPTモデルは、特定の専門分野に関する試験において卓越した性能を示しながら、他の分野では完全に失敗するなど、大きく変化した。
論文参考訳（メタデータ） (2024-04-29T09:08:22Z)
Evaluating AI Vocational Skills Through Professional Testing [0.0]
本研究は,GPT-3とTurbo-GPT3.5の2つのAIモデルの職業能力を評価することに焦点を当てた。どちらのモデルも、従来の機械の役割以外の感覚や経験に基づくテストでよく評価された。調査によると、OpenAIのBabageからTurboへのモデル改善により、数年のうちにグレードスケールでのパフォーマンスが60%向上した。
論文参考訳（メタデータ） (2023-12-17T04:41:59Z)
Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文参考訳（メタデータ） (2023-10-16T05:09:16Z)
Performance of Large Language Models in a Computer Science Degree Program [0.5330240017302619]
本稿では,応用科学大学大学院コンピュータサイエンス学位課程における大規模言語モデルの性能について述べる。講義資料,運動課題,過去の試験をモデルに促すことで,各分野のコンピュータサイエンス分野にまたがってその習熟度を評価することを目指す。 We found that ChatGPT-3.5 averageed 79.9% of the total score in 10 test module, BingAI achieved 68.4%, and LLaMa, in the 6600 billion parameter variant, 20%。
論文参考訳（メタデータ） (2023-07-24T14:17:00Z)
AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。 GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文参考訳（メタデータ） (2023-04-13T09:39:30Z)
Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文参考訳（メタデータ） (2023-03-13T14:09:53Z)
How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。 GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文参考訳（メタデータ） (2023-03-01T07:39:01Z)
GPT Takes the Bar Exam [0.0]
GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
論文参考訳（メタデータ） (2022-12-29T18:19:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。