論文の概要: From Human Days to Machine Seconds: Automatically Answering and
Generating Machine Learning Final Exams
- arxiv url: http://arxiv.org/abs/2206.05442v6
- Date: Thu, 15 Jun 2023 03:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 04:03:08.999120
- Title: From Human Days to Machine Seconds: Automatically Answering and
Generating Machine Learning Final Exams
- Title(参考訳): 人間の日から機械秒:機械学習の最終結果の自動回答と生成
- Authors: Iddo Drori, Sarah J. Zhang, Reece Shuttleworth, Sarah Zhang, Keith
Tyser, Zad Chin, Pedro Lantigua, Saisamrit Surbehera, Gregory Hunter, Derek
Austin, Leonard Tang, Yann Hicke, Sage Simhon, Sathwik Karnik, Darnell
Granberry, Madeleine Udell
- Abstract要約: 大規模な言語モデルは、MIT、ハーバード、コーネルから引き出されたコーパスで、人間のレベルで機械学習のファイナルをパスすることを示した。
他の質問やコースノートから新しい質問を生成する方法を示します。
- 参考スコア(独自算出の注目度): 10.25071232250652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A final exam in machine learning at a top institution such as MIT, Harvard,
or Cornell typically takes faculty days to write, and students hours to solve.
We demonstrate that large language models pass machine learning finals at a
human level on a corpus drawn from MIT, Harvard, and Cornell and automatically
generate new human-quality final exam questions in seconds. Previous work has
developed program synthesis and few-shot learning methods to solve
university-level problem set questions in mathematics and STEM courses. In this
work, we develop and compare methods that solve final exams, which differ from
problem sets in several ways: the questions are longer, have multiple parts,
are more complicated, and span a broader set of topics. We provide a new
dataset and benchmark of questions from machine learning final exams and code
for answering these questions and generating new questions. We show how to
generate new questions from other questions and course notes. We evaluate a
large open language model, Meta's OPT, and compare the results with OpenAI's
closed models. A student survey comparing the quality, appropriateness, and
difficulty of machine-generated questions with human-written questions shows
that across multiple aspects, machine-generated questions are indistinguishable
from human-generated questions and are suitable for final exams. We perform
ablation studies comparing zero-shot learning with few-shot learning and
chain-of-thought prompting using GPT-3, OPT, Codex, and ChatGPT across machine
learning topics and find that few-shot learning methods perform best. We
highlight the transformative potential of language models to streamline the
writing and solution of large-scale assessments, significantly reducing the
workload from human days to machine seconds.
- Abstract(参考訳): mit、ハーバード、コーネルなどの上位機関における機械学習の最終試験は通常、執筆に学部の日を要し、解決には学生の時間を要する。
大規模言語モデルは、mit、ハーバード、コーネルのコーパスで人間のレベルで機械学習のファイナルをパスし、新しい人間品質のファイナルテストの質問を数秒で自動的に生成する。
従来の研究は、数学やSTEMコースにおける大学レベルの問題セットを解くために、プログラム合成と数ショットの学習方法を開発した。
本研究では,問題集合とはいくつかの方法で異なる最終試験を解く手法を開発し,比較する。質問はより長く,複数の部分を持ち,より複雑で,幅広い話題にまたがる。
機械学習の最終試験とこれらの質問に答え、新しい質問を生成するためのコードから、新しいデータセットとベンチマークを提供する。
他の質問やコースノートから新しい質問を生成する方法を示します。
大規模なオープン言語モデルであるmeta's optを評価し、その結果をopenaiのクローズドモデルと比較する。
機械による質問の品質,適切性,難易度を比較した学生調査では,複数の側面において,機械による質問は人為的な質問とは区別がつかず,最終試験に適していることが示された。
GPT-3, OPT, Codex, ChatGPT を用いて, ゼロショット学習と少数ショット学習, チェーン・オブ・シークレットとを比較したアブレーション研究を行い, 少数ショット学習が有効であることを示す。
我々は,大規模評価の文章作成と解法を合理化する言語モデルの変換可能性に注目し,人間の日数からマシン秒までの作業負荷を大幅に削減する。
関連論文リスト
- Learning to Reuse Distractors to support Multiple Choice Question
Generation in Education [19.408786425460498]
本稿では,教師が複数選択質問(MCQ)の作成を支援するために,手作業による回答と注意散らしの集合をいかに活用するかを検討する。
データ駆動モデルをいくつか構築し,静的な特徴ベースモデルと比較した。
自動評価と人的評価は、コンテキスト認識モデルが静的な特徴ベースのアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-10-25T12:48:56Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Solving Linear Algebra by Program Synthesis [1.0660480034605238]
我々は、MITのLinear Algebra 18.06コースとコロンビア大学のComputational Linear Algebra COMS3251コースを、インタラクティブなプログラム合成によって完全な精度で解決する。
この驚くほど強い結果は、コース質問をプログラミングタスクに変換し、プログラムを実行して正しい回答を生成することで達成されます。
論文 参考訳(メタデータ) (2021-11-16T01:16:43Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Solving Machine Learning Problems [0.315565869552558]
この研究は、大学卒のレベルコースから機械学習の問題を解決するために、機械学習モデルを訓練する。
我々は、MITの6.036のIntroduction to Machine Learningコースから、コース演習、宿題、クイズ質問からなる、新しいトレーニングセットと回答を生成する。
本システムでは,MIT学生の平均93%に対して,オープン応答質問では96%,マルチチョイス質問では97%の総合的精度を示した。
論文 参考訳(メタデータ) (2021-07-02T18:52:50Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。