論文の概要: Reinforcement Learning Guided Multi-Objective Exam Paper Generation
- arxiv url: http://arxiv.org/abs/2303.01042v1
- Date: Thu, 2 Mar 2023 07:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:33:55.975995
- Title: Reinforcement Learning Guided Multi-Objective Exam Paper Generation
- Title(参考訳): 強化学習指導型多目的エグザム紙生成
- Authors: Yuhu Shang, Xuexiong Luo, Lihong Wang, Hao Peng, Xiankun Zhang, Yimeng
Ren, Kun Liang
- Abstract要約: そこで本研究では,MOEPGと呼ばれる多目的文書生成フレームワークを提案する。
難易度、試験スコアの配分、スキルカバレッジを含む3つの試験領域固有の目的を同時に最適化する。
試験用紙生成シナリオの多重ジレンマにMOEPGが適用可能であることを示す。
- 参考スコア(独自算出の注目度): 21.945655389912112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To reduce the repetitive and complex work of instructors, exam paper
generation (EPG) technique has become a salient topic in the intelligent
education field, which targets at generating high-quality exam paper
automatically according to instructor-specified assessment criteria. The
current advances utilize the ability of heuristic algorithms to optimize
several well-known objective constraints, such as difficulty degree, number of
questions, etc., for producing optimal solutions. However, in real scenarios,
considering other equally relevant objectives (e.g., distribution of exam
scores, skill coverage) is extremely important. Besides, how to develop an
automatic multi-objective solution that finds an optimal subset of questions
from a huge search space of large-sized question datasets and thus composes a
high-quality exam paper is urgent but non-trivial. To this end, we skillfully
design a reinforcement learning guided Multi-Objective Exam Paper Generation
framework, termed MOEPG, to simultaneously optimize three exam domain-specific
objectives including difficulty degree, distribution of exam scores, and skill
coverage. Specifically, to accurately measure the skill proficiency of the
examinee group, we first employ deep knowledge tracing to model the interaction
information between examinees and response logs. We then design the flexible
Exam Q-Network, a function approximator, which automatically selects the
appropriate question to update the exam paper composition process. Later, MOEPG
divides the decision space into multiple subspaces to better guide the updated
direction of the exam paper. Through extensive experiments on two real-world
datasets, we demonstrate that MOEPG is feasible in addressing the multiple
dilemmas of exam paper generation scenario.
- Abstract(参考訳): インストラクターの反復的かつ複雑な作業を減らすため、インストラクター特定評価基準に従って、高品質な試験用紙の自動作成を目標とする知的教育分野において、試験用紙生成(EPG)技術が健全なトピックとなっている。
現在の進歩は、ヒューリスティックアルゴリズムの能力を利用して、難易度、質問数などのよく知られた目標制約を最適化し、最適解を生成する。
しかし、実際のシナリオでは、他の等しく関連する目標(試験得点の分布、スキルカバレッジなど)を考慮することは極めて重要である。
さらに、大規模質問データセットの巨大な検索空間から最適な質問のサブセットを見つけ出し、高品質な試験用紙を構成する自動多目的ソリューションの開発も急務であるが、非自明である。
そこで我々は,MOEPGと呼ばれる強化学習指導型多目的論文生成フレームワークを巧みに設計し,難易度,試験スコアの分布,スキルカバレッジを含む3つの試験領域固有の目的を同時に最適化する。
具体的には, 被験者集団の熟練度を正確に測定するために, まず, 被験者と応答ログの相互作用情報をモデル化するために, 深い知識追跡を用いる。
次に,適切な質問を自動的に選択して試験用紙作成プロセスを更新する関数近似器であるフレキシブル試験用qネットワークを設計する。
その後、MOEPGは、決定空間を複数のサブスペースに分割して、試験用紙の更新方向をよりよく案内する。
2つの実世界のデータセットに関する広範な実験を通して、MOEPGは試験紙生成シナリオの多重ジレンマに対処できることを示した。
関連論文リスト
- Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams [2.7363336723930756]
本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成における大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。
筆者らは,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の質問を総合的に比較した。
研究結果は,ChatGLMが生み出した質問は,実際の試験質問と同様,高い合理性,科学的性,実践性を示すことを示している。
論文 参考訳(メタデータ) (2024-08-19T13:32:14Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。
複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文 参考訳(メタデータ) (2024-05-22T13:14:11Z) - Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-05T11:58:56Z) - RethinkingTMSC: An Empirical Study for Target-Oriented Multimodal
Sentiment Classification [70.9087014537896]
目的指向型マルチモーダル感性分類(TMSC)は,学者の間でも注目されている。
この問題の原因を明らかにするために,データセットの広範な実験的評価と詳細な分析を行う。
論文 参考訳(メタデータ) (2023-10-14T14:52:37Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Analysis of the Cambridge Multiple-Choice Questions Reading Dataset with
a Focus on Candidate Response Distribution [38.58190457533888]
候補分布マッチングのタスクを導入し、タスクの評価指標をいくつか提案し、RACE++でトレーニングされた自動システムをタスクのベースラインとして活用できることを実証する。
さらに,これらの自動システムは,過度な障害検出などの実運用前評価タスクに利用できることを示す。
論文 参考訳(メタデータ) (2023-06-22T17:13:08Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - ExamGAN and Twin-ExamGAN for Exam Script Generation [3.1902272671210468]
授業中の学生のスコアを望ましい分布にできる試験スクリプトをどうやって生成するかは、まだ不明である。
評価において同等の高品質なテストスクリプトをどうやって生成するかは、今のところ不明である。
本稿では,高品質な試験スクリプトを生成するためにExamGANを提案し,その後,T-ExamGANに拡張して高品質な試験スクリプトを生成する。
論文 参考訳(メタデータ) (2021-08-22T07:34:15Z) - Quality meets Diversity: A Model-Agnostic Framework for Computerized
Adaptive Testing [60.38182654847399]
コンピュータ適応テスト(CAT)は多くのシナリオで有望なテストアプリケーションとして現れています。
CAT ソリューションのための新しいフレームワークである Model-Agnostic Adaptive Testing (MAAT) を提案する。
論文 参考訳(メタデータ) (2021-01-15T06:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。