論文の概要: Assessing Distractors in Multiple-Choice Tests
- arxiv url: http://arxiv.org/abs/2311.04554v1
- Date: Wed, 8 Nov 2023 09:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:26:58.444450
- Title: Assessing Distractors in Multiple-Choice Tests
- Title(参考訳): マルチチョイステストにおける注意注意点の評価
- Authors: Vatsal Raina, Adian Liusie, Mark Gales
- Abstract要約: 複数項目の読解テストにおいて, 気晴らしの質を測る指標を提案する。
具体的には,不正確さ,妥当性,不適切な選択肢の多様性の観点から,品質を定義します。
- 参考スコア(独自算出の注目度): 10.179963650540056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple-choice tests are a common approach for assessing candidates'
comprehension skills. Standard multiple-choice reading comprehension exams
require candidates to select the correct answer option from a discrete set
based on a question in relation to a contextual passage. For appropriate
assessment, the distractor answer options must by definition be incorrect but
plausible and diverse. However, generating good quality distractors satisfying
these criteria is a challenging task for content creators. We propose automated
assessment metrics for the quality of distractors in multiple-choice reading
comprehension tests. Specifically, we define quality in terms of the
incorrectness, plausibility and diversity of the distractor options. We assess
incorrectness using the classification ability of a binary multiple-choice
reading comprehension system. Plausibility is assessed by considering the
distractor confidence - the probability mass associated with the distractor
options for a standard multi-class multiple-choice reading comprehension
system. Diversity is assessed by pairwise comparison of an embedding-based
equivalence metric between the distractors of a question. To further validate
the plausibility metric we compare against candidate distributions over
multiple-choice questions and agreement with a ChatGPT model's interpretation
of distractor plausibility and diversity.
- Abstract(参考訳): 複数選択テストは、候補者の理解力を評価する一般的なアプローチである。
標準的な多重選択読解試験では、候補者は文脈通過に関する質問に基づいて、個別の集合から正しい解答オプションを選択する必要がある。
適切な評価のためには、イントラクタの解答オプションは定義上は正しくないが、多様でなければならない。
しかし、これらの基準を満たす高品質な気晴らしを生み出すことは、コンテンツ制作者にとって難しい課題である。
本稿では,複数項目の読解テストにおける注意点品質の自動評価指標を提案する。
具体的には,不正確さ,妥当性,多様さの観点から品質を定義した。
二分音読解システムの分類能力を用いて不正確性を評価する。
可読性は、標準マルチクラスマルチチョイス読解システムにおける可読性オプションに付随する確率質量である可聴性信頼度を考慮して評価される。
多様性は、質問の気晴らし者間の埋め込みベースの等価度メトリックのペアワイズ比較によって評価される。
複数の質問に対する候補分布との比較と、ChatGPTモデルによる散逸的妥当性と多様性の解釈との一致を更に検証する。
関連論文リスト
- Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - QUDSELECT: Selective Decoding for Questions Under Discussion Parsing [90.92351108691014]
Question Under Examination (QUD) は、暗黙の質問を用いて文間の会話関係を明らかにするための談話フレームワークである。
本稿では,QUD基準を考慮したQUD依存構造を選択的に復号する共同学習フレームワークであるQUDSELECTを紹介する。
提案手法は,人的評価において9%,自動評価において4%,最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-02T06:46:08Z) - Analyzing Multiple-Choice Reading and Listening Comprehension Tests [0.0]
本研究は,会話の書き起こしと聞き取りテストに基づいて,コンテキストパスを複数選択で読み取る必要があるかを検討する。
自動読解システムは、文脈パスへのアクセスを部分的にあるいは全く行わずに、ランダムよりもはるかに優れた性能を発揮することが判明した。
論文 参考訳(メタデータ) (2023-07-03T14:55:02Z) - Analysis of the Cambridge Multiple-Choice Questions Reading Dataset with
a Focus on Candidate Response Distribution [38.58190457533888]
候補分布マッチングのタスクを導入し、タスクの評価指標をいくつか提案し、RACE++でトレーニングされた自動システムをタスクのベースラインとして活用できることを実証する。
さらに,これらの自動システムは,過度な障害検出などの実運用前評価タスクに利用できることを示す。
論文 参考訳(メタデータ) (2023-06-22T17:13:08Z) - Multi-Label Quantification [78.83284164605473]
定量化とは、教師なしデータサンプルにおいて、興味あるクラスの相対周波数の予測子を生成する教師付き学習課題である。
本研究では,その相対頻度をより正確に予測するために,興味あるクラス間の依存関係を活用しようとするクラス有病率値の推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T11:29:59Z) - Multiple-Choice Question Generation: Towards an Automated Assessment
Framework [0.0]
トランスフォーマーをベースとした事前学習型言語モデルでは,コンテキスト段落から適切な質問を生成する能力が実証されている。
我々は,質問文と可能な回答の両方を文脈段落から生成しなければならない完全自動複数選択質問生成システム(MCQG)に焦点を当てる。
論文 参考訳(メタデータ) (2022-09-23T19:51:46Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Generating Adequate Distractors for Multiple-Choice Questions [7.966913971277812]
本手法は, 音声タグ付け, 名前付きタグ付け, セマンティックロールラベル付け, 正規表現, ドメイン知識ベース, 単語埋め込み, 単語編集距離, ワードネット, その他のアルゴリズムの組み合わせである。
実験と人的判断により,各MCQは少なくとも1つの適切な注意障害を有し,評価の84%は3つの適切な注意障害を有することを示した。
論文 参考訳(メタデータ) (2020-10-23T20:47:58Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z) - Uncertainty-aware Score Distribution Learning for Action Quality
Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。
具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。
微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文 参考訳(メタデータ) (2020-06-13T15:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。