論文の概要: Question Difficulty Ranking for Multiple-Choice Reading Comprehension
- arxiv url: http://arxiv.org/abs/2404.10704v1
- Date: Tue, 16 Apr 2024 16:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:05:12.914117
- Title: Question Difficulty Ranking for Multiple-Choice Reading Comprehension
- Title(参考訳): 複数項目読解の難易度ランキング
- Authors: Vatsal Raina, Mark Gales,
- Abstract要約: 複数選択テスト(MC)は、英語学習者を評価するのに有効な方法である。
テストクリエーターは、試験キュレーションの際の難易度によって、候補MCの質問をランク付けするのに役立つ。
MC質問を難易度でランク付けするための自動アプローチについて検討する。
- 参考スコア(独自算出の注目度): 3.273958158967657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple-choice (MC) tests are an efficient method to assess English learners. It is useful for test creators to rank candidate MC questions by difficulty during exam curation. Typically, the difficulty is determined by having human test takers trial the questions in a pretesting stage. However, this is expensive and not scalable. Therefore, we explore automated approaches to rank MC questions by difficulty. However, there is limited data for explicit training of a system for difficulty scores. Hence, we compare task transfer and zero-shot approaches: task transfer adapts level classification and reading comprehension systems for difficulty ranking while zero-shot prompting of instruction finetuned language models contrasts absolute assessment against comparative. It is found that level classification transfers better than reading comprehension. Additionally, zero-shot comparative assessment is more effective at difficulty ranking than the absolute assessment and even the task transfer approaches at question difficulty ranking with a Spearman's correlation of 40.4%. Combining the systems is observed to further boost the correlation.
- Abstract(参考訳): 複数選択テスト(MC)は、英語学習者を評価するのに有効な方法である。
テストクリエーターは、試験キュレーションの際の難易度によって、候補MCの質問をランク付けするのに役立つ。
通常、この難易度は、人間の試験受験者が事前試験段階で質問を審理することで決定される。
しかし、これは高価でスケーラブルではない。
そこで我々は,MC質問を難易度でランク付けする自動化手法について検討した。
しかし、難易度スコアのためのシステムの明示的なトレーニングには限定的なデータがある。
したがって、タスク転送とゼロショットのアプローチを比較する:タスク転送はレベル分類と読解システムに適応し、命令の微調整された言語モデルのゼロショットプロンプトは、比較に対する絶対的な評価とは対照的である。
その結果, レベル分類は読解よりも優れていることがわかった。
さらに、ゼロショット比較評価は絶対評価よりもランク付けが難しい場合の方が効果的であり、スピアマンの相関が40.4%である場合のタスク転送アプローチでさえも困難である。
システムの組み合わせが観測され、相関がさらに高められる。
関連論文リスト
- Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks? [74.88417042125985]
複雑さの異なるタスクにおいて、様々な品質レベルで監視データを提供する様々なデータ駆動戦略について検討する。
ハードタスクの監視における結果エラー率が高い場合でも、そのようなデータによるトレーニングは、より簡単なサブタスクの監督を完璧に上回ります。
また,本研究の結果から,タスク・インスペクションとサブタスク・インスペクションを補完することで,顕著なパフォーマンス向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-27T17:55:27Z) - Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - Controlling Cloze-test Question Item Difficulty with PLM-based Surrogate
Models for IRT Assessment [0.6138671548064356]
本稿では,項目応答理論(IRT)の評価を可能にする代理モデルとして,事前学習言語モデル(PLM)のトレーニングを提案する。
また,不正な邪魔者を減らすためのランキングルールを用いて,ギャップと邪魔者の双方の難易度を制御するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-03T09:18:05Z) - Assessing Distractors in Multiple-Choice Tests [10.179963650540056]
複数項目の読解テストにおいて, 気晴らしの質を測る指標を提案する。
具体的には,不正確さ,妥当性,不適切な選択肢の多様性の観点から,品質を定義します。
論文 参考訳(メタデータ) (2023-11-08T09:37:09Z) - Analyzing Multiple-Choice Reading and Listening Comprehension Tests [0.0]
本研究は,会話の書き起こしと聞き取りテストに基づいて,コンテキストパスを複数選択で読み取る必要があるかを検討する。
自動読解システムは、文脈パスへのアクセスを部分的にあるいは全く行わずに、ランダムよりもはるかに優れた性能を発揮することが判明した。
論文 参考訳(メタデータ) (2023-07-03T14:55:02Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z) - Difficulty-Aware Machine Translation Evaluation [19.973201669851626]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。
ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。
提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文 参考訳(メタデータ) (2021-07-30T02:45:36Z) - Deep learning for sentence clustering in essay grading support [1.7259867886009057]
フィンランド語における大学生エッセイの2つのデータセットを紹介し,文レベルの有意な議論に対して手作業で注釈を付ける。
我々は,エッセイグレーディングを支援するために,文クラスタリングに適した深層学習埋め込み手法をいくつか評価した。
論文 参考訳(メタデータ) (2021-04-23T12:32:51Z) - PiRank: Learning To Rank via Differentiable Sorting [85.28916333414145]
ランク付けのための新しい分類可能なサロゲートであるPiRankを提案する。
ピランクは所望の指標をゼロ温度の限界で正確に回収する。
論文 参考訳(メタデータ) (2020-12-12T05:07:36Z) - The World is Not Binary: Learning to Rank with Grayscale Data for
Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。
本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。
3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文 参考訳(メタデータ) (2020-04-06T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。