Fugu-MT 論文翻訳(概要): CamChoice: A Corpus of Multiple Choice Questions and Candidate Response Distributions

論文の概要: CamChoice: A Corpus of Multiple Choice Questions and Candidate Response Distributions

arxiv url: http://arxiv.org/abs/2306.13047v1
Date: Thu, 22 Jun 2023 17:13:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 13:38:43.057913
Title: CamChoice: A Corpus of Multiple Choice Questions and Candidate Response Distributions
Title（参考訳）: CamChoice: 複数の選択質問と候補応答分布のコーパス
Authors: Adian Liusie, Vatsal Raina, Andrew Mullooly, Kate Knill, Mark J. F. Gales
Abstract要約: CamChoiceは、異なるターゲットレベルでの質問を含む、複数選択の理解データセットである。本稿では,タスク評価指標をいくつか提案し,タスクのベースラインとして RACE++ でトレーニングされた自動システムを活用できることを実証する。
参考スコア（独自算出の注目度）: 26.415271794513064
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multiple Choice examinations are a ubiquitous form of assessment that is used to measure the ability of candidates across various domains and tasks. Maintaining the quality of proposed questions is of great importance to test designers, and therefore newly proposed questions go through several pre-test evaluation stages before they can be deployed into real-world exams. This process is currently quite manual, which can lead to time lags in the question development cycle. Automating this process would lead to a large improvement in efficiency, however, current datasets do not contain sufficient pre-test analysis information. In this paper, we introduce CamChoice; a multiple-choice comprehension dataset with questions at different target levels, where questions have the true candidate selected options distributions. We introduce the task of candidate distribution matching, propose several evaluation metrics for the task, and demonstrate that automatic systems trained on RACE++ can be leveraged as baselines for our task. We further demonstrate that these automatic systems can be used for practical pre-test evaluation tasks such as detecting underperforming distractors, where our detection systems can automatically identify poor distractors that few candidates select. We release the data publicly for future research.
Abstract（参考訳）: 複数の選択試験(multiple choice examination)は、さまざまなドメインやタスクの候補の能力を測定するユビキタスな評価形式である。提案する質問の品質を維持することは、テスト設計者にとって非常に重要であるため、新しく提案された質問は、実際のテストに配備される前に、いくつかの事前テスト評価段階を経る。このプロセスは現在非常に手作業で、質問開発サイクルの遅延につながる可能性がある。このプロセスを自動化することで効率が大幅に向上するが、現在のデータセットには十分な事前テスト分析情報が含まれていない。本稿では,対象レベルの異なる質問に対して,真の候補選択された選択肢分布を問う多重選択理解データセットCamChoiceを紹介する。候補分布マッチングのタスクを導入し、タスクの評価指標をいくつか提案し、RACE++でトレーニングされた自動システムをタスクのベースラインとして活用できることを実証する。さらに、これらの自動システムは、性能の低い乱れを検知するなど、実際の事前評価作業に利用でき、この検出システムは、候補がほとんどいない不適切な乱れを自動で識別できる。今後の研究のためにデータを公開します。

関連論文リスト

An experimental survey and Perspective View on Meta-Learning for Automated Algorithms Selection and Parametrization [0.0]
我々は、この継続的な発展途上の分野における芸術の状況について概観する。 AutoMLは、高度な分析を適用することに興味があるドメイン科学者が機械学習技術にアクセスできるようにする。
論文参考訳（メタデータ） (2025-04-08T16:51:22Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文参考訳（メタデータ） (2024-05-22T13:14:11Z)
Distractor Generation in Multiple-Choice Tasks: A Survey of Methods, Datasets, and Evaluation [20.14906249952034]
イントラクタ生成タスクは、客観的な質問に対して不正確だが妥当な選択肢を生成することに焦点を当てる。人工知能(AI)の進化は、タスクを従来の手法からニューラルネットワークや事前訓練された言語モデルに移行した。本調査では、英語の客観的質問に対して、イントラクタ生成タスク、データセット、メソッド、および現在の評価指標について検討する。
論文参考訳（メタデータ） (2024-02-02T15:53:31Z)
Assessing Distractors in Multiple-Choice Tests [10.179963650540056]
複数項目の読解テストにおいて, 気晴らしの質を測る指標を提案する。具体的には,不正確さ,妥当性,不適切な選択肢の多様性の観点から,品質を定義します。
論文参考訳（メタデータ） (2023-11-08T09:37:09Z)
Reinforcement Learning Guided Multi-Objective Exam Paper Generation [21.945655389912112]
そこで本研究では,MOEPGと呼ばれる多目的文書生成フレームワークを提案する。難易度、試験スコアの配分、スキルカバレッジを含む3つの試験領域固有の目的を同時に最適化する。試験用紙生成シナリオの多重ジレンマにMOEPGが適用可能であることを示す。
論文参考訳（メタデータ） (2023-03-02T07:55:52Z)
Revisiting Long-tailed Image Classification: Survey and Benchmarks with New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文参考訳（メタデータ） (2023-02-03T02:40:54Z)
Socratic Pretraining: Question-Driven Pretraining for Controllable Summarization [89.04537372465612]
ソクラティック事前訓練は、要約タスクにおける制御性を改善するために設計された、質問駆動で教師なし事前訓練の目的である。以上の結果から,Socraticプレトレーニングはタスク固有のラベル付きデータ要件を半分に削減することがわかった。
論文参考訳（メタデータ） (2022-12-20T17:27:10Z)
Multiple-Choice Question Generation: Towards an Automated Assessment Framework [0.0]
トランスフォーマーをベースとした事前学習型言語モデルでは,コンテキスト段落から適切な質問を生成する能力が実証されている。我々は,質問文と可能な回答の両方を文脈段落から生成しなければならない完全自動複数選択質問生成システム(MCQG)に焦点を当てる。
論文参考訳（メタデータ） (2022-09-23T19:51:46Z)
Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文参考訳（メタデータ） (2020-10-19T19:53:15Z)
MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文参考訳（メタデータ） (2020-10-10T10:36:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。