論文の概要: GPT Takes the Bar Exam
- arxiv url: http://arxiv.org/abs/2212.14402v1
- Date: Thu, 29 Dec 2022 18:19:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:13:14.760882
- Title: GPT Takes the Bar Exam
- Title(参考訳): GPTがバーのエグザムを取る
- Authors: Michael Bommarito II, Daniel Martin Katz
- Abstract要約: GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。
最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nearly all jurisdictions in the United States require a professional license
exam, commonly referred to as "the Bar Exam," as a precondition for law
practice. To even sit for the exam, most jurisdictions require that an
applicant completes at least seven years of post-secondary education, including
three years at an accredited law school. In addition, most test-takers also
undergo weeks to months of further, exam-specific preparation. Despite this
significant investment of time and capital, approximately one in five
test-takers still score under the rate required to pass the exam on their first
try. In the face of a complex task that requires such depth of knowledge, what,
then, should we expect of the state of the art in "AI?" In this research, we
document our experimental evaluation of the performance of OpenAI's
`text-davinci-003` model, often-referred to as GPT-3.5, on the multistate
multiple choice (MBE) section of the exam. While we find no benefit in
fine-tuning over GPT-3.5's zero-shot performance at the scale of our training
data, we do find that hyperparameter optimization and prompt engineering
positively impacted GPT-3.5's zero-shot performance. For best prompt and
parameters, GPT-3.5 achieves a headline correct rate of 50.3% on a complete
NCBE MBE practice exam, significantly in excess of the 25% baseline guessing
rate, and performs at a passing rate for both Evidence and Torts. GPT-3.5's
ranking of responses is also highly-correlated with correctness; its top two
and top three choices are correct 71% and 88% of the time, respectively,
indicating very strong non-entailment performance. While our ability to
interpret these results is limited by nascent scientific understanding of LLMs
and the proprietary nature of GPT, we believe that these results strongly
suggest that an LLM will pass the MBE component of the Bar Exam in the near
future.
- Abstract(参考訳): アメリカ合衆国のほぼ全ての司法管轄区域は、法律実務の前提条件として「司法試験」と呼ばれる専門的な免許試験を要求している。
試験を受けるためにも、ほとんどの司法管轄区域は、認定法学校での3年間を含む最低7年間の第二次教育を受験者に要求する。
さらに、ほとんどの試験受験者は、試験固有の準備を数週間から数ヶ月かけて行う。
この時間と資本のかなりの投資にもかかわらず、5人に1人の受験者が最初の試験で試験に合格するために必要な率でまだ得点している。
このような知識の深みを必要とする複雑なタスクに直面して、"ai"の芸術の現状を期待するべきだろうか?
本研究では,openai の ‘text-davinci-003` モデル(しばしば gpt-3.5 と表記される)を試験の多状態多重選択 (multistate multiple choice, mbe) セクションで評価した。
トレーニングデータの規模でGPT-3.5のゼロショット性能を微調整するメリットはないが、ハイパーパラメータ最適化とエンジニアリングがGPT-3.5のゼロショット性能に肯定的な影響を与えていることが分かる。
最良のプロンプトとパラメータのために、GPT-3.5は、NCBE MBEの練習試験において、25%のベースライン推定率をはるかに上回り、EvidenceとTortsの両方のパスレートで、見出し正解率50.3%を達成する。
GPT-3.5の応答のランクは、その上位2つと上位3つの選択はそれぞれ71%と88%であり、非常に強い非エンターメント性能を示している。
これらの結果を解釈する能力は, LLMの科学的理解とGPTの独自性によって制限されているが, これらの結果は, LLMが近い将来, Bar ExamのMBE成分を通過させることを強く示唆している。
関連論文リスト
- CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - GPT-4 passes most of the 297 written Polish Board Certification Examinations [0.5461938536945723]
本研究では,ポーランド委員会認定試験(Pa'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。
GPTモデルは、特定の専門分野に関する試験において卓越した性能を示しながら、他の分野では完全に失敗するなど、大きく変化した。
論文 参考訳(メタデータ) (2024-04-29T09:08:22Z) - Evaluating the Performance of Large Language Models for Spanish Language
in Undergraduate Admissions Exams [4.974500659156055]
本研究では,メキシコの国立ポリテクニック研究所が提案する学部受験試験における大規模言語モデル,特にGPT-3.5とBARDの性能を評価する。
どちらのモデルも習熟度を示し、各学術プログラムの受入スコアを最大75%まで越えた。
論文 参考訳(メタデータ) (2023-12-28T06:23:39Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - Professional Certification Benchmark Dataset: The First 500 Jobs For
Large Language Models [0.0]
この調査は、大規模な言語モデルをテストし、採用可能なスキルを評価するための専門的な認定調査を作成する。
GPT-3とTurbo-GPT3.5の2つのAIモデルのパフォーマンスを、1149のプロフェッショナル認定のベンチマークデータセットで比較する。
論文 参考訳(メタデータ) (2023-05-07T00:56:58Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission
Exams [4.2706617195518195]
本研究では, 言語モデル (LM) の高精細度検定における能力について検討する。
この試験は、質問が複数の分野の知識にまたがる可能性があるため、LMにとって難しい課題となる。
最高性能のGPT-4は87%の精度を達成し、GPT-3.5を11ポイント上回った。
論文 参考訳(メタデータ) (2023-03-29T20:10:13Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z) - GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。
サンプルREG試験では,テキストダビンシ003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力が著しく低下していることが判明した。
最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
論文 参考訳(メタデータ) (2023-01-11T11:30:42Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。