論文の概要: Multiple-Choice Question Generation: Towards an Automated Assessment
Framework
- arxiv url: http://arxiv.org/abs/2209.11830v1
- Date: Fri, 23 Sep 2022 19:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:19:20.818424
- Title: Multiple-Choice Question Generation: Towards an Automated Assessment
Framework
- Title(参考訳): マルチチョイス質問生成:自動評価フレームワークに向けて
- Authors: Vatsal Raina and Mark Gales
- Abstract要約: トランスフォーマーをベースとした事前学習型言語モデルでは,コンテキスト段落から適切な質問を生成する能力が実証されている。
我々は,質問文と可能な回答の両方を文脈段落から生成しなければならない完全自動複数選択質問生成システム(MCQG)に焦点を当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated question generation is an important approach to enable
personalisation of English comprehension assessment. Recently,
transformer-based pretrained language models have demonstrated the ability to
produce appropriate questions from a context paragraph. Typically, these
systems are evaluated against a reference set of manually generated questions
using n-gram based metrics, or manual qualitative assessment. Here, we focus on
a fully automated multiple-choice question generation (MCQG) system where both
the question and possible answers must be generated from the context paragraph.
Applying n-gram based approaches is challenging for this form of system as the
reference set is unlikely to capture the full range of possible questions and
answer options. Conversely manual assessment scales poorly and is expensive for
MCQG system development. In this work, we propose a set of performance criteria
that assess different aspects of the generated multiple-choice questions of
interest. These qualities include: grammatical correctness, answerability,
diversity and complexity. Initial systems for each of these metrics are
described, and individually evaluated on standard multiple-choice reading
comprehension corpora.
- Abstract(参考訳): 自動質問生成は、英語理解評価のパーソナライズを可能にする重要なアプローチである。
近年,トランスフォーマティブ型事前学習言語モデルが,文脈段落から適切な質問を生成できることを実証している。
通常、これらのシステムは、n-gramベースのメトリクスまたは手動定性評価を用いて、手動で生成された質問の参照セットに対して評価される。
本稿では,質問文と可能な回答の両方を文脈段落から生成しなければならない完全自動複数選択質問生成システム(MCQG)に焦点を当てる。
n-gramベースのアプローチを適用することは、参照セットがあらゆる可能な質問や解答オプションをキャプチャする可能性は低いため、この形式のシステムでは困難である。
逆に手作業による評価はスケールが悪く、mcqgシステム開発には費用がかかる。
そこで本研究では,興味のある複数の質問の異なる側面を評価する一連の性能基準を提案する。
文法的正しさ、答え可能性、多様性、複雑さ。
各メトリクスの初期システムについて記述し、標準の複数選択読解コーパスで個別に評価する。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - Automating question generation from educational text [1.9325905076281444]
質問ベースの活動(QBA)の使用は、教育において広く普及しており、学習と評価プロセスの不可欠な部分を形成している。
学校における形式的・要約的評価のための自動質問生成ツールの設計と評価を行う。
論文 参考訳(メタデータ) (2023-09-26T15:18:44Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - SkillQG: Learning to Generate Question for Reading Comprehension
Assessment [54.48031346496593]
本稿では,機械読解モデルの評価と改善を目的とした,制御可能な理解型を用いた質問生成フレームワークを提案する。
まず、階層的なスキルベースのスキーマに基づいて理解型の質問をフレーム化し、その後、スキル条件付き質問生成器として$textttSkillQG$を定式化する。
経験的な結果から、$textttSkillQG$は、品質、妥当性、スキル制御性という点でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-08T14:40:48Z) - Discourse Analysis via Questions and Answers: Parsing Dependency
Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。
我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。
完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文 参考訳(メタデータ) (2022-10-12T03:53:12Z) - Evaluation of Question Answering Systems: Complexity of judging a
natural language [3.4771957347698583]
質問応答システム(QA)は、自然言語処理(NLP)において最も重要かつ急速に発展している研究課題の一つである。
本調査では,QAの枠組み,QAパラダイム,ベンチマークデータセット,およびQAシステムの定量的評価のための評価手法の体系的概要について述べる。
論文 参考訳(メタデータ) (2022-09-10T12:29:04Z) - Evaluating Mixed-initiative Conversational Search Systems via User
Simulation [9.066817876491053]
このような検索システムの自動評価のための対話型ユーザシミュレータUSiを提案する。
Ui が生成した応答は,その基盤となる情報要求と同等であり,人間による回答に匹敵するものであることを示す。
論文 参考訳(メタデータ) (2022-04-17T16:27:33Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。