論文の概要: Generating and Evaluating Tests for K-12 Students with Language Model
Simulations: A Case Study on Sentence Reading Efficiency
- arxiv url: http://arxiv.org/abs/2310.06837v1
- Date: Tue, 10 Oct 2023 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:17:19.549720
- Title: Generating and Evaluating Tests for K-12 Students with Language Model
Simulations: A Case Study on Sentence Reading Efficiency
- Title(参考訳): 言語モデルシミュレーションによるK-12学生の学習結果の生成と評価 : 文読解効率のケーススタディ
- Authors: Eric Zelikman, Wanjing Anya Ma, Jasmine E. Tran, Diyi Yang, Jason D.
Yeatman, Nick Haber
- Abstract要約: 本研究は,学生の読解能力の経時的評価に用いるサイレント文読解効率の試験に焦点を当てた。
本研究では,従来の学生が未確認項目に対してどのように反応したかをシミュレートするために,大規模言語モデル(LLM)を微調整することを提案する。
生成したテストは,クラウドワーカーの反応に基づいて,元のテストの難易度と信頼性に密接に対応していることを示す。
- 参考スコア(独自算出の注目度): 45.6224547703717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing an educational test can be expensive and time-consuming, as each
item must be written by experts and then evaluated by collecting hundreds of
student responses. Moreover, many tests require multiple distinct sets of
questions administered throughout the school year to closely monitor students'
progress, known as parallel tests. In this study, we focus on tests of silent
sentence reading efficiency, used to assess students' reading ability over
time. To generate high-quality parallel tests, we propose to fine-tune large
language models (LLMs) to simulate how previous students would have responded
to unseen items. With these simulated responses, we can estimate each item's
difficulty and ambiguity. We first use GPT-4 to generate new test items
following a list of expert-developed rules and then apply a fine-tuned LLM to
filter the items based on criteria from psychological measurements. We also
propose an optimal-transport-inspired technique for generating parallel tests
and show the generated tests closely correspond to the original test's
difficulty and reliability based on crowdworker responses. Our evaluation of a
generated test with 234 students from grades 2 to 8 produces test scores highly
correlated (r=0.93) to those of a standard test form written by human experts
and evaluated across thousands of K-12 students.
- Abstract(参考訳): 各項目は専門家によって記述され、数百人の学生の回答を収集して評価されなければならないため、教育テストの開発は高価で時間がかかります。
さらに、多くのテストは、並列テストとして知られる生徒の進捗を注意深く監視するために、学年を通して複数の異なる質問セットを必要とする。
本研究では,学生の読解能力の経時的評価に用いるサイレント文読解効率の試験に焦点をあてた。
高品質な並列テストを生成するために,従来の学生が目に見えない項目にどう反応したかをシミュレートする大規模言語モデル(LLM)を提案する。
これらのシミュレート応答により,各項目の難易度と曖昧さを推定できる。
まず, GPT-4を用いて, 専門家が開発したルールリストに従って新しいテスト項目を生成し, そして, 心理測定基準に基づいて細調整LCMを適用した。
また,並列テスト生成のための最適なトランスポートインスパイア手法を提案し,クラウドワーカー応答に基づく元のテストの難易度と信頼性に密接に対応していることを示す。
2年生から8年生の234名を対象に,人間専門家による標準テスト形式と高い相関(r=0.93)を示し,k-12学生数千名を対象に評価を行った。
関連論文リスト
- Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [55.66090768926881]
本研究では,非テクスチャ化された「トリックテスト」と,現実的利用と有形効果に根ざした評価の対応について検討する。
本稿では,現在文献に適合している3つの非文脈評価と,長文コンテンツ生成に適用された3つの類似のRUTED評価を比較した。
トリックテストとRUTEd評価の対応は見つからなかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Manual Tests Do Smell! Cataloging and Identifying Natural Language Test
Smells [1.43994708364763]
テストの臭いは、自動化されたソフトウェアテストの設計と実装における潜在的な問題を示しています。
本研究は,手動テストの匂いのカタログ化に寄与することを目的としている。
論文 参考訳(メタデータ) (2023-08-02T19:05:36Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Validation of massively-parallel adaptive testing using dynamic control
matching [0.0]
現代のビジネスはしばしば同時に多数のA/B/nテストを実行し、多くのコンテンツバリエーションを同じメッセージにパッケージ化する。
本稿では, 連続試験適応条件下での各種試験の因果効果を解消する手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T11:28:12Z) - Hybrid Intelligent Testing in Simulation-Based Verification [0.0]
数百万のテストは、カバレッジの目標を達成するために必要かもしれない。
カバレッジ指向のテスト選択は、カバレッジフィードバックからバイアステストまで、最も効果的なテストへと学習する。
ノベルティ駆動検証は、以前の刺激とは異なる刺激を識別し、シミュレートすることを学ぶ。
論文 参考訳(メタデータ) (2022-05-19T13:22:08Z) - On the use of test smells for prediction of flaky tests [0.0]
不安定な検査は 検査結果の評価を妨げ コストを増大させる
既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。
フレキな検査の予測因子として, 試験臭の使用について検討した。
論文 参考訳(メタデータ) (2021-08-26T13:21:55Z) - Test-Agnostic Long-Tailed Recognition by Test-Time Aggregating Diverse
Experts with Self-Supervision [85.07855130048951]
本研究では,テスト非依存型ロングテール認識(test-agnostic long-tailed recognition)と呼ばれる,より実践的なタスク設定について検討する。
本稿では,多種多様な専門家に異なるテスト分布を扱うように訓練するTADE(Test-time Aggregating Diverse Experts)と呼ばれる新しい手法を提案する。
理論的には,提案手法は未知のテストクラス分布をシミュレートできることを示す。
論文 参考訳(メタデータ) (2021-07-20T04:10:31Z) - Empowering Language Understanding with Counterfactual Reasoning [141.48592718583245]
本稿では,反現実的思考を模倣した反現実的推論モデルを提案する。
特に,各実例に対して代表的対実サンプルを生成する生成モジュールを考案し,その対実サンプルと実例サンプルを比較してモデル予測を振り返るレトロスペクティブモジュールを考案した。
論文 参考訳(メタデータ) (2021-06-06T06:36:52Z) - Learning by Passing Tests, with Application to Neural Architecture
Search [19.33620150924791]
そこで我々は,受験による学習という新しい学習手法を提案する。
テスターモデルは、学習者モデルを評価するために、ますます難しいテストを生成します。
学習者は、継続的に学習能力を改善して、テスターが作成した難しいテストに合格できるようにしようとする。
論文 参考訳(メタデータ) (2020-11-30T18:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。