論文の概要: Quiz Design Task: Helping Teachers Create Quizzes with Automated
Question Generation
- arxiv url: http://arxiv.org/abs/2205.01730v1
- Date: Tue, 3 May 2022 18:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:51:20.209363
- Title: Quiz Design Task: Helping Teachers Create Quizzes with Automated
Question Generation
- Title(参考訳): Quiz Design Task: 教師が質問の自動生成によるクイズ作成を支援する
- Authors: Philippe Laban and Chien-Sheng Wu and Lidiya Murakhovs'ka and Wenhao
Liu and Caiming Xiong
- Abstract要約: 本稿では,教師が読解クイズを自動生成するためのユースケースに焦点を当てた。
本研究は,クイズを構築中の教師が質問を受講し,それに応じるか,あるいは拒否するかのどちらかを理由として行う。
- 参考スコア(独自算出の注目度): 87.34509878569916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question generation (QGen) models are often evaluated with standardized NLG
metrics that are based on n-gram overlap. In this paper, we measure whether
these metric improvements translate to gains in a practical setting, focusing
on the use case of helping teachers automate the generation of reading
comprehension quizzes. In our study, teachers building a quiz receive question
suggestions, which they can either accept or refuse with a reason. Even though
we find that recent progress in QGen leads to a significant increase in
question acceptance rates, there is still large room for improvement, with the
best model having only 68.4% of its questions accepted by the ten teachers who
participated in our study. We then leverage the annotations we collected to
analyze standard NLG metrics and find that model performance has reached
projected upper-bounds, suggesting new automatic metrics are needed to guide
QGen research forward.
- Abstract(参考訳): 質問生成(QGen)モデルは、n-gramオーバーラップに基づく標準化されたNLGメトリクスで評価されることが多い。
本稿では,教師が読解クイズを自動生成する際のユースケースに焦点をあてて,これらの指標の改善が実践的な場面で得られるかどうかを計測する。
本研究は,クイズを構築中の教師が質問を受講し,それに応じるか,あるいは拒否する。
近年のQGenの進歩は質問受理率を大幅に向上させるが、改善の余地は依然として広く、最高のモデルでは、調査に参加した10人の教師が受け入れた質問の68.4%しか持たない。
次に、収集したアノテーションを利用して標準のNLGメトリクスを分析し、モデルパフォーマンスが予測上界に達したことを発見し、QGen研究を先導するために新しい自動メトリクスが必要であることを示唆します。
関連論文リスト
- How Teachers Can Use Large Language Models and Bloom's Taxonomy to
Create Educational Quizzes [5.487297537295827]
本稿では,Bloomの分類学から得られた学習目標を問う,大規模言語モデルに基づくQGアプローチを適用する。
その結果、教師は自動生成された質問でクイズを書くことを好んでおり、手書き版に比べてクイズの品質が損なわれていないことがわかった。
論文 参考訳(メタデータ) (2024-01-11T13:47:13Z) - Automatic Answerability Evaluation for Question Generation [32.1067137848404]
提案するPMANは,提案した質問が参照回答によって答えられるかどうかを評価するための,新しい自動評価指標である。
GPTに基づくQGモデルの実装は,回答可能な質問を生成する上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-22T00:13:07Z) - Distractor generation for multiple-choice questions with predictive
prompting and large language models [21.233186754403093]
ChatGPTのような大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。
本稿では,質問銀行から自動的に回収される質問項目を抽出し,関連する注意散らしを発生させる上でのLLMの誘導戦略を提案する。
その結果,教師に提示した気晴らし器の53%が,即時使用に適した高品質と評価された。
論文 参考訳(メタデータ) (2023-07-30T23:15:28Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Learning Answer Generation using Supervision from Automatic Question
Answering Evaluators [98.9267570170737]
我々は、自動QA評価モデル(GAVA)の監督を用いたGenQAのための新しいトレーニングパラダイムを提案する。
提案手法を2つの学術的, 1つの産業的データセット上で評価し, 過去の技術状況に対して, 回答精度を大幅に向上させた。
論文 参考訳(メタデータ) (2023-05-24T16:57:04Z) - Hurdles to Progress in Long-form Question Answering [34.805039943215284]
タスクの定式化は評価とデータセットの作成に関する根本的な課題を提起する。
まず,最先端性能を実現するために,注意の疎化とコントラストレトリバー学習による新しいシステムを設計する。
論文 参考訳(メタデータ) (2021-03-10T20:32:30Z) - Exploring Question-Specific Rewards for Generating Deep Questions [42.243227323241584]
我々は、生成した質問の流布度、妥当性、回答可能性を改善するために、ターゲットとする3つの異なる報酬を設計する。
質問固有報酬の最適化は、一般的に自動評価指標の性能向上につながる。
論文 参考訳(メタデータ) (2020-11-02T16:37:30Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。