論文の概要: A Dataset and Benchmark for Automatically Answering and Generating
Machine Learning Final Exams
- arxiv url: http://arxiv.org/abs/2206.05442v1
- Date: Sat, 11 Jun 2022 06:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 12:26:30.994524
- Title: A Dataset and Benchmark for Automatically Answering and Generating
Machine Learning Final Exams
- Title(参考訳): 機械学習最終結果の自動回答と生成のためのデータセットとベンチマーク
- Authors: Sarah Zhang, Reece Shuttleworth, Derek Austin, Yann Hicke, Leonard
Tang, Sathwik Karnik, Darnell Granberry, Iddo Drori
- Abstract要約: 我々は、人間が機械学習を学べるかという、同じような疑問に答えるために、私たちが使っているのと同じ基準を使って、この質問に答えることを提案する。
人間のレベルでの機械学習入門で、MITの最終試験に自動的に答えます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can a machine learn machine learning? We propose to answer this question
using the same criteria we use to answer a similar question: can a human learn
machine learning? We automatically answer MIT final exams in Introduction to
Machine Learning at a human level. The course is a large undergraduate class
with around five hundred students each semester. Recently, program synthesis
and few-shot learning solved university-level problem set questions in
mathematics and STEM courses at a human level. In this work, we solve questions
from final exams that differ from problem sets in several ways: the questions
are longer, have multiple parts, are more complicated, and span a broader set
of topics. We provide a new dataset and benchmark of questions from eight MIT
Introduction to Machine Learning final exams between Fall 2017 and Spring 2022
and provide code for automatically answering these questions and generating new
questions. We perform ablation studies comparing zero-shot learning with
few-shot learning, chain-of-thought prompting, GPT-3 pre-trained on text and
Codex fine-tuned on code on a range of machine learning topics and find that
few-shot learning methods perform best. We make our data and code publicly
available for the machine learning community.
- Abstract(参考訳): 機械は機械学習を学べるのか?
我々は、同様の質問に答えるために使用するのと同じ基準を用いて、この質問に答えることを提案している:人間は機械学習を学べるのか?
人間のレベルでの機械学習入門で、MITの最終試験に自動的に答えます。
このコースは、学期ごとに約500人の学生を抱える大きな学部生である。
近年,人間レベルでの数学やSTEMの授業において,プログラム合成と数ショット学習が大学レベルの課題を解決している。
本研究では,質問の長さが長く,複数の部分があり,より複雑で,幅広いトピックにまたがる,いくつかの方法で,問題セットとは異なる最終試験からの質問を解決する。
2017年秋から2022年春にかけて、MITが実施した8つの機械学習最終試験のデータセットとベンチマークを提供し、これらの質問に自動的に答え、新しい質問を生成するためのコードを提供します。
我々は,ゼロショット学習とマイナショット学習,チェイン・オブ・マインド・プロンプト,gpt-3をテキストで事前学習し,codexをさまざまな機械学習トピックで微調整したアブレーション研究を行い,マイナショット学習が最善であることを示す。
機械学習コミュニティのために、データとコードを公開しています。
関連論文リスト
- Learning to Reuse Distractors to support Multiple Choice Question
Generation in Education [19.408786425460498]
本稿では,教師が複数選択質問(MCQ)の作成を支援するために,手作業による回答と注意散らしの集合をいかに活用するかを検討する。
データ駆動モデルをいくつか構築し,静的な特徴ベースモデルと比較した。
自動評価と人的評価は、コンテキスト認識モデルが静的な特徴ベースのアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-10-25T12:48:56Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Solving Linear Algebra by Program Synthesis [1.0660480034605238]
我々は、MITのLinear Algebra 18.06コースとコロンビア大学のComputational Linear Algebra COMS3251コースを、インタラクティブなプログラム合成によって完全な精度で解決する。
この驚くほど強い結果は、コース質問をプログラミングタスクに変換し、プログラムを実行して正しい回答を生成することで達成されます。
論文 参考訳(メタデータ) (2021-11-16T01:16:43Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Solving Machine Learning Problems [0.315565869552558]
この研究は、大学卒のレベルコースから機械学習の問題を解決するために、機械学習モデルを訓練する。
我々は、MITの6.036のIntroduction to Machine Learningコースから、コース演習、宿題、クイズ質問からなる、新しいトレーニングセットと回答を生成する。
本システムでは,MIT学生の平均93%に対して,オープン応答質問では96%,マルチチョイス質問では97%の総合的精度を示した。
論文 参考訳(メタデータ) (2021-07-02T18:52:50Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。