論文の概要: Exploring AI-Enabled Test Practice, Affect, and Test Outcomes in Language Assessment
- arxiv url: http://arxiv.org/abs/2508.17108v1
- Date: Sat, 23 Aug 2025 18:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.346299
- Title: Exploring AI-Enabled Test Practice, Affect, and Test Outcomes in Language Assessment
- Title(参考訳): 言語アセスメントにおけるAIによるテスト実践、影響、およびテスト結果の探索
- Authors: Jill Burstein, Ramsey Cardwell, Ping-Ling Chuang, Allison Michalowski, Steven Nydick,
- Abstract要約: 生成AI駆動の自動アイテム生成(AIG)は、大規模なアイテムバンクの作成と複数のプラクティステストを拡張する。
本研究は,AIG対応の実践試験をハイテイク言語アセスメントに活用した最初の大規模研究である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Practice tests for high-stakes assessment are intended to build test familiarity, and reduce construct-irrelevant variance which can interfere with valid score interpretation. Generative AI-driven, automated item generation (AIG) scales the creation of large item banks and multiple practice tests, enabling repeated practice opportunities. We conducted a large-scale observational study (N = 25,969) using the Duolingo English Test (DET) -- a digital, high-stakes, computer-adaptive English language proficiency test to examine how increased access to repeated test practice relates to official DETscores, test-taker affect (e.g., confidence), and score-sharing for university admissions. To our knowledge, this is the first large-scale study exploring the use of AIG-enabled practice tests in high-stakes language assessment. Results showed that taking 1-3 practice tests was associated with better performance (scores), positive affect (e.g., confidence) toward the official DET, and increased likelihood of sharing scores for university admissions for those who also expressed positive affect. Taking more than 3 practice tests was related to lower performance, potentially reflecting washback -- i.e., using the practice test for purposes other than test familiarity, such as language learning or developing test-taking strategies. Findings can inform best practices regarding AI-supported test readiness. Study findings also raise new questions about test-taker preparation behaviors and relationships to test-taker performance, affect, and behaviorial outcomes.
- Abstract(参考訳): ハイテイク評価のための実践的テストは、テストの親しみを高めることを目的としており、有効なスコア解釈に干渉する構成的無関係な分散を減らすことを目的としている。
生成AI駆動の自動アイテム生成(AIG)は、大規模なアイテムバンクの作成と複数のプラクティステストをスケールし、繰り返し実施する機会を可能にする。
著者らはDuolingo English Test (DET) を用いて大規模な観察調査を行い, 大学入試におけるテストタッカーの影響(例えば, 信頼度), スコアシェアリングとの関連性について検討した。
我々の知る限り、これはAIG対応の実践試験をハイテイク言語アセスメントに活用する最初の大規模研究である。
その結果,1~3回の実践試験を実施すれば,成績(スコア),公的なDTに対する肯定的影響(信頼感など),また,肯定的影響を示した者に対する大学受験者に対するスコア共有の可能性が高まった。
例えば、言語学習やテストテイク戦略の開発など、テストに精通すること以外の目的で、プラクティステストを使用することだ。
発見は、AIをサポートするテストの準備についてベストプラクティスを通知する。
調査結果は、テストテカーの準備行動と、テストテカーのパフォーマンス、影響、行動結果との関係について、新たな疑問を提起する。
関連論文リスト
- TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。
評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。
今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文 参考訳(メタデータ) (2025-05-31T19:43:00Z) - Gamifying Testing in IntelliJ: A Replicability Study [8.689182960457137]
ゲーミフィケーションは、ソフトウェアテストのような従来未完成のタスクにおいて、モチベーションとパフォーマンスを高める新しいテクニックである。
これまでの研究によると、ゲーミフィケーションされたシステムは、テスタに成果とフィードバックを提供することで、ソフトウェアテストプロセスを改善する可能性がある。
本稿では,IntelliJ IDEAのゲーミフィケーションプラグインであるIntelliGameの効果を再現し,検証することを目的としている。
論文 参考訳(メタデータ) (2025-04-27T16:17:11Z) - Ever-Improving Test Suite by Leveraging Large Language Models [0.0]
ソフトウェアシステムの実際の使用を反映したテストケースによるテストスイートの拡大は、長く続くソフトウェアシステムの品質を維持する上で非常に重要である。
E-Testは、本番環境で発生しまだテストされていない動作を実行するテストケースでテストスイートを漸進的に拡張するアプローチである。
論文 参考訳(メタデータ) (2025-04-15T13:38:25Z) - NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。
WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文 参考訳(メタデータ) (2024-11-02T15:22:26Z) - Implicit assessment of language learning during practice as accurate as explicit testing [0.5749787074942512]
コンピュータ支援型言語学習において,2つの文脈における学生の能力評価に項目応答理論(IRT)を用いる。
まず、効率は良いが正確な適応テストで徹底的なテストを置き換えることを目的としている。
第2に,エクササイズによる実践の文脈から直接,テストなしで学習者の能力を正確に推定できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-24T14:40:44Z) - Responsible AI for Test Equity and Quality: The Duolingo English Test as a Case Study [0.06657612504660106]
この章では、AIを利用したハイテイクな英語アセスメントであるDuolingo English Test (DET)を用いて、ケーススタディを提示している。
DET RAI標準、その開発、およびドメインに依存しないRAI原則との関係について論じる。
これらのプラクティスは、妥当性と信頼性、公平性、プライバシとセキュリティ、透明性と説明責任の基準という倫理的原則にどのように対処するかを示している。
論文 参考訳(メタデータ) (2024-08-28T11:39:20Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文 参考訳(メタデータ) (2020-07-24T17:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。