論文の概要: Perhaps PTLMs Should Go to School -- A Task to Assess Open Book and
Closed Book QA
- arxiv url: http://arxiv.org/abs/2110.01552v1
- Date: Mon, 4 Oct 2021 16:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:59:13.640089
- Title: Perhaps PTLMs Should Go to School -- A Task to Assess Open Book and
Closed Book QA
- Title(参考訳): PTLMsは学校に行くべきだ - オープンブックとクローズドブックQAを評価するタスク
- Authors: Manuel R. Ciosici, Joe Cecil, Alex Hedges, Dong-Ho Lee, Marjorie
Freedman, Ralph Weischedel
- Abstract要約: 私たちのゴールは、質問応答と事前学習言語モデル(PTLM)の研究を刺激する新しいタスクとリーダーボードを提供することです。
我々は、社会科学(アメリカ政府2e)と人文科学(米国史)の2つの大学レベルの導入テキストを含む新しいタスクを提案する。
BoolQも同様のパフォーマンスを達成し、PTLMでは教科書の内容が事前に表現されていないことを示唆している。
- 参考スコア(独自算出の注目度): 7.663910634739482
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Our goal is to deliver a new task and leaderboard to stimulate research on
question answering and pre-trained language models (PTLMs) to understand a
significant instructional document, e.g., an introductory college textbook or a
manual. PTLMs have shown great success in many question-answering tasks, given
significant supervised training, but much less so in zero-shot settings. We
propose a new task that includes two college-level introductory texts in the
social sciences (American Government 2e) and humanities (U.S. History),
hundreds of true/false statements based on review questions written by the
textbook authors, validation/development tests based on the first eight
chapters of the textbooks, blind tests based on the remaining textbook
chapters, and baseline results given state-of-the-art PTLMs. Since the
questions are balanced, random performance should be ~50%. T5, fine-tuned with
BoolQ achieves the same performance, suggesting that the textbook's content is
not pre-represented in the PTLM. Taking the exam closed book, but having read
the textbook (i.e., adding the textbook to T5's pre-training), yields at best
minor improvement (56%), suggesting that the PTLM may not have "understood" the
textbook (or perhaps misunderstood the questions). Performance is better (~60%)
when the exam is taken open-book (i.e., allowing the machine to automatically
retrieve a paragraph and use it to answer the question).
- Abstract(参考訳): 私たちの目標は、質問応答と事前学習言語モデル(ptlms)に関する研究を刺激し、重要な教示文書(例えば、入門科目教科書やマニュアル)を理解するための新しいタスクとリーダーボードを提供することです。
PTLMは多くの質問応答タスクで大きな成功をおさめており、教師付きトレーニングがかなり行われた。
本稿では,社会科学(アメリカ政府2e)と人文科学(米国歴史学)の2つの大学レベルの導入テキスト,教科書作成者によるレビュー質問に基づく数百の真偽文,教科書の前半8章に基づく検証・開発試験,残りの教科書章に基づく盲検試験,最先端PTLMのベースライン結果を含む新しい課題を提案する。
質問はバランスが取れているため、ランダムなパフォーマンスは50%程度でなければならない。
BoolQで微調整されたT5は同じ性能を達成し、PTLMでは教科書の内容が事前に表現されていないことを示唆している。
教科書(すなわち、教科書をt5の事前学習に加えた)を受験すると、最も小さな改善(56%)が得られ、ptlmは教科書を「理解」していないかもしれない(あるいは、質問を誤解しているかもしれない)。
試験が開かれた場合(つまり、マシンが自動的に段落を取得してそれを使って質問に答えることができる)、パフォーマンスは(約60%)良くなります。
関連論文リスト
- GPT-4 as a Homework Tutor can Improve Student Engagement and Learning Outcomes [80.60912258178045]
我々は,中学生が第二言語として英語を学習するための対話型宿題セッションを,GPT-4で実施できるプロンプト戦略を開発した。
従来の宿題を GPT-4 の宿題に置き換え,4つの高校生の授業でランダム化比較試験(RCT)を行った。
学習結果の大幅な改善,特に文法の増大,学生のエンゲージメントについて検討した。
論文 参考訳(メタデータ) (2024-09-24T11:22:55Z) - Using Generative Text Models to Create Qualitative Codebooks for Student Evaluations of Teaching [0.0]
学生による教育評価(SET)は、教育者にとって重要なフィードバック源である。
SETのコレクションは、管理者がコースやプログラム全体の信号として役立つ。
自然言語処理(NLP)と大規模言語モデル(LLM)を用いてSETを解析する新しい手法について論じる。
論文 参考訳(メタデータ) (2024-03-18T17:21:35Z) - Instruction-tuned Language Models are Better Knowledge Learners [106.38526595116961]
文書の学習に先立って質問を指導するPIT(Pre-instruction-tuning)を提案する。
大規模な実験とアブレーション研究により、プレインストラクションチューニングはLLMが新しい文書から知識を吸収する能力を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-20T09:20:32Z) - In-Context Principle Learning from Mistakes [75.66979331850364]
Incontext Learning(ICL)は、いくつかの入力出力例から学習することで、下流タスクにLLMを適用する標準的な方法である。
我々はこのパラダイムを再考し、数少ないインプット・アウトプットの例からより多くを学ぶ。
論文 参考訳(メタデータ) (2024-02-08T04:42:29Z) - Harnessing the Power of Prompt-based Techniques for Generating
School-Level Questions using Large Language Models [0.5459032912385802]
本稿では,プロンプトベースの手法を用いて記述的および推論的質問を生成する手法を提案する。
我々は,NCERT教科書のリッチコンテンツを活用することで,学校レベルの課題を対象とした新しいQGデータセットEduProbeをキュレートする。
変換器をベースとした大規模言語モデルを用いて,いくつかのプロンプトベースのQG手法について検討する。
論文 参考訳(メタデータ) (2023-12-02T05:13:28Z) - Trustworthy Machine Learning [57.08542102068706]
信頼に値する機械学習(TML)に関する教科書は、TMLの4つの重要なトピックの理論的および技術的な背景をカバーしている。
本稿では、上記の分野に関する重要な古典的・現代的な研究論文について論じ、その基礎となる直観を解明し、接続する。
論文 参考訳(メタデータ) (2023-10-12T11:04:17Z) - Answer Candidate Type Selection: Text-to-Text Language Model for Closed
Book Question Answering Meets Knowledge Graphs [62.20354845651949]
本稿では,この問題を解決するために,事前学習されたテキスト間QAシステム上で機能する新しいアプローチを提案する。
提案手法は,Wikidataの"instance_of"プロパティの型に基づいて,生成した候補のフィルタリングと再ランク付けを行う。
論文 参考訳(メタデータ) (2023-10-10T20:49:43Z) - From Human Days to Machine Seconds: Automatically Answering and
Generating Machine Learning Final Exams [10.25071232250652]
MIT、ハーバード大学、コーネル大学などのトップ機関での機械学習の最終試験は、書くのに何日もかかり、生徒は解決するのに何時間もかかる。
大規模な言語モデルは、トレーニング後のオンラインのファイナルで、人間のレベルで機械学習のファイナルをパスし、新しい品質のファイナル質問を数秒で自動生成することを示した。
論文 参考訳(メタデータ) (2022-06-11T06:38:06Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Effective Feedback for Introductory CS Theory: A JFLAP Extension and
Student Persistence [4.40401067183266]
我々の研究の主な目的は、学生が抽象計算モデルを学ぶのを支援することである。
これらのモデルと対話するための最も一般的な教育ツールがJava Formal Languages and Automata Package (JFLAP)である。
JFLAPサーバ拡張は,学生からの宿題の提出を受け付け,その提出を正しいか間違っているか評価し,提出が正しくない場合に証人文字列を提供する。
論文 参考訳(メタデータ) (2020-12-02T21:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。