論文の概要: CamChoice: A Corpus of Multiple Choice Questions and Candidate Response
Distributions
- arxiv url: http://arxiv.org/abs/2306.13047v2
- Date: Sun, 10 Sep 2023 13:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 19:36:19.911323
- Title: CamChoice: A Corpus of Multiple Choice Questions and Candidate Response
Distributions
- Title(参考訳): CamChoice: 複数の選択質問と候補応答分布のコーパス
- Authors: Adian Liusie, Vatsal Raina, Andrew Mullooly, Kate Knill, Mark J. F.
Gales
- Abstract要約: 我々は、異なるターゲットレベルの質問のデータセットであるCamChoiceを紹介し、対応する候補選択分布について紹介する。
本稿では,タスク評価指標をいくつか提案し,タスクのベースラインとして RACE++ でトレーニングされた自動システムを活用できることを実証する。
将来の研究のためにデータを公開します。
- 参考スコア(独自算出の注目度): 38.58190457533888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple choice exams are widely used to assess candidates across a diverse
range of domains and tasks. To moderate question quality, newly proposed
questions often pass through pre-test evaluation stages before being deployed
into real-world exams. Currently, this evaluation process is manually
intensive, which can lead to time lags in the question development cycle.
Streamlining this process via automation can significantly enhance efficiency,
however, there's a current lack of datasets with adequate pre-test analysis
information. In this paper we introduce CamChoice; a multiple-choice
comprehension dataset of questions at different target levels, with
corresponding candidate selection distributions. We introduce the task of
candidate distribution matching, propose several evaluation metrics for the
task, and demonstrate that automatic systems trained on RACE++ can be leveraged
as baselines for our task. We further demonstrate that these automatic systems
can be used for practical pre-test evaluation tasks such as detecting
underperforming distractors, where our detection systems can automatically
identify poor distractors that few candidates select. We release the data
publicly for future research.
- Abstract(参考訳): 複数の選択試験が様々な分野やタスクの候補者を評価するために広く使われている。
質問の品質を低下させるため、新しく提案された質問は、実世界の試験に配備される前に、テスト前の評価段階を通過することが多い。
現在、この評価プロセスは手動で集中しており、質問開発サイクルの遅延につながる可能性がある。
このプロセスの自動化による合理化は効率を大幅に向上させるが、十分な事前テスト分析情報を備えたデータセットが現在不足している。
本稿では,異なる対象レベルの質問を複数選択するデータセットであるCamChoiceを紹介し,その候補選択分布について述べる。
候補分布マッチングのタスクを導入し、タスクの評価指標をいくつか提案し、RACE++でトレーニングされた自動システムをタスクのベースラインとして活用できることを実証する。
さらに、これらの自動システムは、性能の低い乱れを検知するなど、実際の事前評価作業に利用でき、この検出システムは、候補がほとんどいない不適切な乱れを自動で識別できる。
今後の研究のためにデータを公開します。
関連論文リスト
- On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。
複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文 参考訳(メタデータ) (2024-05-22T13:14:11Z) - Distractor Generation in Multiple-Choice Tasks: A Survey of Methods, Datasets, and Evaluation [20.14906249952034]
イントラクタ生成タスクは、客観的な質問に対して不正確だが妥当な選択肢を生成することに焦点を当てる。
人工知能(AI)の進化は、タスクを従来の手法からニューラルネットワークや事前訓練された言語モデルに移行した。
本調査では、英語の客観的質問に対して、イントラクタ生成タスク、データセット、メソッド、および現在の評価指標について検討する。
論文 参考訳(メタデータ) (2024-02-02T15:53:31Z) - Assessing Distractors in Multiple-Choice Tests [10.179963650540056]
複数項目の読解テストにおいて, 気晴らしの質を測る指標を提案する。
具体的には,不正確さ,妥当性,不適切な選択肢の多様性の観点から,品質を定義します。
論文 参考訳(メタデータ) (2023-11-08T09:37:09Z) - Reinforcement Learning Guided Multi-Objective Exam Paper Generation [21.945655389912112]
そこで本研究では,MOEPGと呼ばれる多目的文書生成フレームワークを提案する。
難易度、試験スコアの配分、スキルカバレッジを含む3つの試験領域固有の目的を同時に最適化する。
試験用紙生成シナリオの多重ジレンマにMOEPGが適用可能であることを示す。
論文 参考訳(メタデータ) (2023-03-02T07:55:52Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Multiple-Choice Question Generation: Towards an Automated Assessment
Framework [0.0]
トランスフォーマーをベースとした事前学習型言語モデルでは,コンテキスト段落から適切な質問を生成する能力が実証されている。
我々は,質問文と可能な回答の両方を文脈段落から生成しなければならない完全自動複数選択質問生成システム(MCQG)に焦点を当てる。
論文 参考訳(メタデータ) (2022-09-23T19:51:46Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。