論文の概要: From Human Days to Machine Seconds: Automatically Answering and
Generating Machine Learning Final Exams
- arxiv url: http://arxiv.org/abs/2206.05442v7
- Date: Wed, 28 Jun 2023 04:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 18:39:15.025484
- Title: From Human Days to Machine Seconds: Automatically Answering and
Generating Machine Learning Final Exams
- Title(参考訳): 人間の日から機械秒:機械学習の最終結果の自動回答と生成
- Authors: Iddo Drori, Sarah J. Zhang, Reece Shuttleworth, Sarah Zhang, Keith
Tyser, Zad Chin, Pedro Lantigua, Saisamrit Surbehera, Gregory Hunter, Derek
Austin, Leonard Tang, Yann Hicke, Sage Simhon, Sathwik Karnik, Darnell
Granberry, Madeleine Udell
- Abstract要約: MIT、ハーバード大学、コーネル大学などのトップ機関での機械学習の最終試験は、書くのに何日もかかり、生徒は解決するのに何時間もかかる。
大規模な言語モデルは、トレーニング後のオンラインのファイナルで、人間のレベルで機械学習のファイナルをパスし、新しい品質のファイナル質問を数秒で自動生成することを示した。
- 参考スコア(独自算出の注目度): 10.25071232250652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A final exam in machine learning at a top institution such as MIT, Harvard,
or Cornell typically takes faculty days to write, and students hours to solve.
We demonstrate that large language models pass machine learning finals at a
human level, on finals available online after the models were trained, and
automatically generate new human-quality final exam questions in seconds.
Previous work has developed program synthesis and few-shot learning methods to
solve university-level problem set questions in mathematics and STEM courses.
In this work, we develop and compare methods that solve final exams, which
differ from problem sets in several ways: the questions are longer, have
multiple parts, are more complicated, and span a broader set of topics. We
curate a dataset and benchmark of questions from machine learning final exams
available online and code for answering these questions and generating new
questions. We show how to generate new questions from other questions and
course notes. For reproducibility and future research on this final exam
benchmark, we use automatic checkers for multiple-choice, numeric, and
questions with expression answers. We perform ablation studies comparing
zero-shot learning with few-shot learning and chain-of-thought prompting using
GPT-3, OPT, Codex, and ChatGPT across machine learning topics and find that
few-shot learning methods perform best. We highlight the transformative
potential of language models to streamline the writing and solution of
large-scale assessments, significantly reducing the workload from human days to
mere machine seconds. Our results suggest that rather than banning large
language models such as ChatGPT in class, instructors should teach students to
harness them by asking students meta-questions about correctness, completeness,
and originality of the responses generated, encouraging critical thinking in
academic studies.
- Abstract(参考訳): mit、ハーバード、コーネルなどの上位機関における機械学習の最終試験は通常、執筆に学部の日を要し、解決には学生の時間を要する。
大規模な言語モデルは、トレーニング後のオンラインのファイナルで、人間のレベルで機械学習のファイナルをパスし、新しい品質のファイナル質問を数秒で自動生成することを示した。
従来の研究は、数学やSTEMコースにおける大学レベルの問題セットを解くために、プログラム合成と数ショットの学習方法を開発した。
本研究では,問題集合とはいくつかの方法で異なる最終試験を解く手法を開発し,比較する。質問はより長く,複数の部分を持ち,より複雑で,幅広い話題にまたがる。
オンラインで利用できる機械学習の最終試験のデータセットとベンチマークを作成し、これらの質問に答え、新しい質問を生成するためのコードを作成します。
他の質問やコースノートから新しい質問を生成する方法を示します。
この最終試験ベンチマークの再現性と今後の研究のために,複数選択,数値,質問に対する自動チェッカーを表現回答とともに使用する。
GPT-3, OPT, Codex, ChatGPT を用いて, ゼロショット学習と少数ショット学習, チェーン・オブ・シークレットとを比較したアブレーション研究を行い, 少数ショット学習が有効であることを示す。
我々は,大規模評価の文章作成と解法を合理化する言語モデルの変換可能性に注目し,人間の日数から機械数秒までの作業負荷を大幅に削減する。
本研究は,chatgptのような大規模言語モデルを授業で禁止するよりも,学生に対して,正しさ,完全性,回答の独創性を問うことによって活用を指導し,批判的思考を奨励すべきであることが示唆された。
関連論文リスト
- Learning to Reuse Distractors to support Multiple Choice Question
Generation in Education [19.408786425460498]
本稿では,教師が複数選択質問(MCQ)の作成を支援するために,手作業による回答と注意散らしの集合をいかに活用するかを検討する。
データ駆動モデルをいくつか構築し,静的な特徴ベースモデルと比較した。
自動評価と人的評価は、コンテキスト認識モデルが静的な特徴ベースのアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-10-25T12:48:56Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Solving Linear Algebra by Program Synthesis [1.0660480034605238]
我々は、MITのLinear Algebra 18.06コースとコロンビア大学のComputational Linear Algebra COMS3251コースを、インタラクティブなプログラム合成によって完全な精度で解決する。
この驚くほど強い結果は、コース質問をプログラミングタスクに変換し、プログラムを実行して正しい回答を生成することで達成されます。
論文 参考訳(メタデータ) (2021-11-16T01:16:43Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Solving Machine Learning Problems [0.315565869552558]
この研究は、大学卒のレベルコースから機械学習の問題を解決するために、機械学習モデルを訓練する。
我々は、MITの6.036のIntroduction to Machine Learningコースから、コース演習、宿題、クイズ質問からなる、新しいトレーニングセットと回答を生成する。
本システムでは,MIT学生の平均93%に対して,オープン応答質問では96%,マルチチョイス質問では97%の総合的精度を示した。
論文 参考訳(メタデータ) (2021-07-02T18:52:50Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。