Fugu-MT 論文翻訳(概要): Generating and Evaluating Tests for K-12 Students with Language Model Simulations: A Case Study on Sentence Reading Efficiency

論文の概要: Generating and Evaluating Tests for K-12 Students with Language Model Simulations: A Case Study on Sentence Reading Efficiency

arxiv url: http://arxiv.org/abs/2310.06837v1
Date: Tue, 10 Oct 2023 17:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 14:17:19.549720
Title: Generating and Evaluating Tests for K-12 Students with Language Model Simulations: A Case Study on Sentence Reading Efficiency
Title（参考訳）: 言語モデルシミュレーションによるK-12学生の学習結果の生成と評価 : 文読解効率のケーススタディ
Authors: Eric Zelikman, Wanjing Anya Ma, Jasmine E. Tran, Diyi Yang, Jason D. Yeatman, Nick Haber
Abstract要約: 本研究は,学生の読解能力の経時的評価に用いるサイレント文読解効率の試験に焦点を当てた。本研究では,従来の学生が未確認項目に対してどのように反応したかをシミュレートするために,大規模言語モデル(LLM)を微調整することを提案する。生成したテストは,クラウドワーカーの反応に基づいて,元のテストの難易度と信頼性に密接に対応していることを示す。
参考スコア（独自算出の注目度）: 45.6224547703717
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing an educational test can be expensive and time-consuming, as each item must be written by experts and then evaluated by collecting hundreds of student responses. Moreover, many tests require multiple distinct sets of questions administered throughout the school year to closely monitor students' progress, known as parallel tests. In this study, we focus on tests of silent sentence reading efficiency, used to assess students' reading ability over time. To generate high-quality parallel tests, we propose to fine-tune large language models (LLMs) to simulate how previous students would have responded to unseen items. With these simulated responses, we can estimate each item's difficulty and ambiguity. We first use GPT-4 to generate new test items following a list of expert-developed rules and then apply a fine-tuned LLM to filter the items based on criteria from psychological measurements. We also propose an optimal-transport-inspired technique for generating parallel tests and show the generated tests closely correspond to the original test's difficulty and reliability based on crowdworker responses. Our evaluation of a generated test with 234 students from grades 2 to 8 produces test scores highly correlated (r=0.93) to those of a standard test form written by human experts and evaluated across thousands of K-12 students.
Abstract（参考訳）: 各項目は専門家によって記述され、数百人の学生の回答を収集して評価されなければならないため、教育テストの開発は高価で時間がかかります。さらに、多くのテストは、並列テストとして知られる生徒の進捗を注意深く監視するために、学年を通して複数の異なる質問セットを必要とする。本研究では,学生の読解能力の経時的評価に用いるサイレント文読解効率の試験に焦点をあてた。高品質な並列テストを生成するために,従来の学生が目に見えない項目にどう反応したかをシミュレートする大規模言語モデル(LLM)を提案する。これらのシミュレート応答により,各項目の難易度と曖昧さを推定できる。まず, GPT-4を用いて, 専門家が開発したルールリストに従って新しいテスト項目を生成し, そして, 心理測定基準に基づいて細調整LCMを適用した。また,並列テスト生成のための最適なトランスポートインスパイア手法を提案し,クラウドワーカー応答に基づく元のテストの難易度と信頼性に密接に対応していることを示す。 2年生から8年生の234名を対象に,人間専門家による標準テスト形式と高い相関(r=0.93)を示し,k-12学生数千名を対象に評価を行った。

関連論文リスト

Do LLMs Give Psychometrically Plausible Responses in Educational Assessments? [24.31027563947265]
テスト受験者が教育評価の項目にどう答えるかを知ることは、テスト開発に不可欠である。大型言語モデル(LLM)がテスト項目に対する人間的な反応を示す場合、テスト開発を加速するためにパイロット参加者として使用する可能性が開ける可能性がある。
論文参考訳（メタデータ） (2025-06-11T14:41:10Z)
TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文参考訳（メタデータ） (2025-06-03T16:07:54Z)
Unify and Triumph: Polyglot, Diverse, and Self-Consistent Generation of Unit Tests with LLMs [5.366354612549172]
PolyTestは、ポリグロットと温度制御の多様性を活用することによって、テスト生成を強化する新しいアプローチである。 PolyTestは、テストセットを統一し、自己整合を育み、全体的なテスト品質を改善することで、一貫性を緩和する。
論文参考訳（メタデータ） (2025-03-20T13:47:06Z)
QG-SMS: Enhancing Test Item Analysis via Student Modeling and Simulation [13.202947148434333]
テスト項目分析(テスト項目解析)をQG評価に導入する。トピックカバレッジ、アイテムの難易度、アイテムの識別、イントラクタ効率など、ディメンションによって品質が異なる質問のペアを構築します。学生のモデリングとシミュレーションに大規模言語モデルを活用する新しいQG評価フレームワークQG-SMSを提案する。
論文参考訳（メタデータ） (2025-03-07T19:21:59Z)
Test smells in LLM-Generated Unit Tests [11.517293765116307]
本研究では,大規模言語モデルの生成した単体テストスイートにおけるテストの匂いの拡散について検討する。 5つのプロンプトエンジニアリング技術で4つのモデルで生成された20,500 LLM生成テストスイートのベンチマークを解析した。我々は,LLM生成テストスイートと筆記テストスイートの両方において,種々のテスト匂いの出現頻度と発生頻度を同定し,解析する。
論文参考訳（メタデータ） (2024-10-14T15:35:44Z)
Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文参考訳（メタデータ） (2024-09-16T07:52:09Z)
Multi-language Unit Test Generation using LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。パイプラインをさまざまなプログラミング言語、特にJavaとPython、そして環境モックを必要とする複雑なソフトウェアに適用する方法を示します。以上の結果から,静的解析によって導かれるLCMベースのテスト生成は,最新のテスト生成技術と競合し,さらに性能も向上することが示された。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。 Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文参考訳（メタデータ） (2024-08-14T23:02:16Z)
Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文参考訳（メタデータ） (2024-03-23T06:36:32Z)
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [55.66090768926881]
本研究では,非テクスチャ化された「トリックテスト」と,現実的利用と有形効果に根ざした評価の対応について検討する。本稿では,現在文献に適合している3つの非文脈評価と,長文コンテンツ生成に適用された3つの類似のRUTED評価を比較した。トリックテストとRUTEd評価の対応は見つからなかった。
論文参考訳（メタデータ） (2024-02-20T01:49:15Z)
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文参考訳（メタデータ） (2023-07-13T16:16:51Z)
On the use of test smells for prediction of flaky tests [0.0]
不安定な検査は検査結果の評価を妨げコストを増大させる既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。フレキな検査の予測因子として, 試験臭の使用について検討した。
論文参考訳（メタデータ） (2021-08-26T13:21:55Z)
Test-Agnostic Long-Tailed Recognition by Test-Time Aggregating Diverse Experts with Self-Supervision [85.07855130048951]
本研究では,テスト非依存型ロングテール認識(test-agnostic long-tailed recognition)と呼ばれる,より実践的なタスク設定について検討する。本稿では,多種多様な専門家に異なるテスト分布を扱うように訓練するTADE(Test-time Aggregating Diverse Experts)と呼ばれる新しい手法を提案する。理論的には,提案手法は未知のテストクラス分布をシミュレートできることを示す。
論文参考訳（メタデータ） (2021-07-20T04:10:31Z)
Empowering Language Understanding with Counterfactual Reasoning [141.48592718583245]
本稿では,反現実的思考を模倣した反現実的推論モデルを提案する。特に,各実例に対して代表的対実サンプルを生成する生成モジュールを考案し,その対実サンプルと実例サンプルを比較してモデル予測を振り返るレトロスペクティブモジュールを考案した。
論文参考訳（メタデータ） (2021-06-06T06:36:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。