論文の概要: GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities
- arxiv url: http://arxiv.org/abs/2301.04408v1
- Date: Wed, 11 Jan 2023 11:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:11:45.444961
- Title: GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities
- Title(参考訳): 知識労働者としてのGPT:(AI)CPA能力のゼロショット評価
- Authors: Jillian Bommarito, Michael Bommarito, Daniel Martin Katz, Jessica Katz
- Abstract要約: サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。
サンプルREG試験では,テキストダビンシ003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力が著しく低下していることが判明した。
最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The global economy is increasingly dependent on knowledge workers to meet the
needs of public and private organizations. While there is no single definition
of knowledge work, organizations and industry groups still attempt to measure
individuals' capability to engage in it. The most comprehensive assessment of
capability readiness for professional knowledge workers is the Uniform CPA
Examination developed by the American Institute of Certified Public Accountants
(AICPA). In this paper, we experimentally evaluate OpenAI's `text-davinci-003`
and prior versions of GPT on both a sample Regulation (REG) exam and an
assessment of over 200 multiple-choice questions based on the AICPA Blueprints
for legal, financial, accounting, technology, and ethical tasks. First, we find
that `text-davinci-003` achieves a correct rate of 14.4% on a sample REG exam
section, significantly underperforming human capabilities on quantitative
reasoning in zero-shot prompts. Second, `text-davinci-003` appears to be
approaching human-level performance on the Remembering & Understanding and
Application skill levels in the Exam absent calculation. For best prompt and
parameters, the model answers 57.6% of questions correctly, significantly
better than the 25% guessing rate, and its top two answers are correct 82.1% of
the time, indicating strong non-entailment. Finally, we find that recent
generations of GPT-3 demonstrate material improvements on this assessment,
rising from 30% for `text-davinci-001` to 57% for `text-davinci-003`. These
findings strongly suggest that large language models have the potential to
transform the quality and efficiency of future knowledge work.
- Abstract(参考訳): 世界経済は、公的および民間機関のニーズを満たすために知識労働者に依存している。
知識労働の単一の定義はないが、組織や業界グループは、それに従事する個人の能力を測定しようとしている。
専門知識労働者の能力準備性に関する最も包括的な評価は、AICPA(American Institute of Certified Public Accountants)によって開発された統一CPA試験である。
本稿では,OpenAIの「text-davinci-003」と,サンプルレギュレーション(REG)試験と,AICPA Blueprintsに基づく法的,財務的,会計的,技術的,倫理的タスクを対象とした200以上の複数選択質問の評価において,GPTの先行バージョンを実験的に評価する。
まず, 「text-davinci-003`」 がサンプルreg試験部で14.4%の正解率を達成し, ゼロショットプロンプトにおける量的推論の人間的能力が著しく低下することがわかった。
第2に,‘text-davinci-003`は,試験欠席計算における記憶・理解・応用スキルレベルにおいて,人間レベルのパフォーマンスに近づいているように見える。
最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
最後に,近年のGPT-3では,「text-davinci-001」の30%から「text-davinci-003」の57%に上昇した。
これらの知見は、大きな言語モデルが将来の知識作業の品質と効率を変革する可能性を強く示唆している。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - On Evaluating Explanation Utility for Human-AI Decision Making in NLP [39.58317527488534]
アプリケーショングラウンド評価に適した既存の指標について検討する。
我々は,人間-AIチームの形成と研究のために,芸術の状態を再評価することの重要性を実証する。
論文 参考訳(メタデータ) (2024-07-03T23:53:27Z) - Evaluating AI Vocational Skills Through Professional Testing [0.0]
本研究は,GPT-3とTurbo-GPT3.5の2つのAIモデルの職業能力を評価することに焦点を当てた。
どちらのモデルも、従来の機械の役割以外の感覚や経験に基づくテストでよく評価された。
調査によると、OpenAIのBabageからTurboへのモデル改善により、数年のうちにグレードスケールでのパフォーマンスが60%向上した。
論文 参考訳(メタデータ) (2023-12-17T04:41:59Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - GPT Takes the Bar Exam [0.0]
GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。
最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
論文 参考訳(メタデータ) (2022-12-29T18:19:43Z) - Predicting article quality scores with machine learning: The UK Research
Excellence Framework [6.582887504429817]
正確性は、医学・物理科学ユニット・オブ・アセスメント(UoAs)と経済学で最も高い。
社会科学、数学、工学、芸術、人文科学、そしてUoAsの基準の上の予測精度は、より低いかゼロに近いものであった。
提案手法は,能動的学習戦略による精度の向上と,予測確率の高い記事の選択により,アルゴリズムによって推定される結果の予測回数を大幅に削減する。
論文 参考訳(メタデータ) (2022-12-11T05:45:12Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - COMET-ATOMIC 2020: On Symbolic and Neural Commonsense Knowledge Graphs [82.8453695903687]
我々は,手作業で構築したコモンセンス知識グラフ(CSKG)が,NLPエージェントが遭遇するすべての状況に適用可能な範囲を達成できないことを示す。
我々は、事前訓練された言語モデルでは利用できない知識を含む汎用コモンセンス知識の新しいCSKGであるATOMIC 2020を提案する。
我々は,他のCSKGと比較してその特性を評価し,コモンセンス知識資源の大規模一対研究を行った。
論文 参考訳(メタデータ) (2020-10-12T18:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。