論文の概要: Controlling Cloze-test Question Item Difficulty with PLM-based Surrogate
Models for IRT Assessment
- arxiv url: http://arxiv.org/abs/2403.01456v1
- Date: Sun, 3 Mar 2024 09:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:13:42.664160
- Title: Controlling Cloze-test Question Item Difficulty with PLM-based Surrogate
Models for IRT Assessment
- Title(参考訳): IRT評価のための PLM に基づくサーロゲートモデルによるクローズテスト質問項目の制御
- Authors: Jingshen Zhang and Jiajun Xie and Xinying Qiu
- Abstract要約: 本稿では,項目応答理論(IRT)の評価を可能にする代理モデルとして,事前学習言語モデル(PLM)のトレーニングを提案する。
また,不正な邪魔者を減らすためのランキングルールを用いて,ギャップと邪魔者の双方の難易度を制御するための2つの戦略を提案する。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Item difficulty plays a crucial role in adaptive testing. However, few works
have focused on generating questions of varying difficulty levels, especially
for multiple-choice (MC) cloze tests. We propose training pre-trained language
models (PLMs) as surrogate models to enable item response theory (IRT)
assessment, avoiding the need for human test subjects. We also propose two
strategies to control the difficulty levels of both the gaps and the
distractors using ranking rules to reduce invalid distractors. Experimentation
on a benchmark dataset demonstrates that our proposed framework and methods can
effectively control and evaluate the difficulty levels of MC cloze tests.
- Abstract(参考訳): アイテムの難しさは適応テストにおいて重要な役割を果たす。
しかし、特にマルチチョイス(MC)クローゼテストにおいて、様々な難易度を問うことに焦点を当てた研究はほとんどない。
本稿では,課題応答理論(irt)評価を可能にするためのサロゲートモデルとして,事前学習型言語モデル(plms)を提案する。
また,不正な邪魔者を減らすためのランキングルールを用いて,ギャップと邪魔者の両方の難易度を制御するための2つの戦略を提案する。
ベンチマークデータセットを用いた実験により,提案手法はMCクローゼテストの難易度を効果的に制御し,評価できることを示した。
関連論文リスト
- Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Distractor generation for multiple-choice questions with predictive
prompting and large language models [21.233186754403093]
ChatGPTのような大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。
本稿では,質問銀行から自動的に回収される質問項目を抽出し,関連する注意散らしを発生させる上でのLLMの誘導戦略を提案する。
その結果,教師に提示した気晴らし器の53%が,即時使用に適した高品質と評価された。
論文 参考訳(メタデータ) (2023-07-30T23:15:28Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - ActiveGLAE: A Benchmark for Deep Active Learning with Transformers [5.326702806697265]
Deep Active Learning (DAL)は、モデルを最大限に学習したいインスタンスアノテーションを積極的にクエリできるようにすることで、アノテーションのコストを削減しようとしている。
DALの分野では、トランスフォーマーベースの言語モデルに対する標準化された評価プロトコルが存在しない。
DALを評価するための総合的なデータセットと評価ガイドラインであるActiveGLAEベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-16T13:07:29Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Transfer and Active Learning for Dissonance Detection: Addressing the
Rare-Class Challenge [7.61140479230184]
本稿では,不協和検出の希少クラス問題に対する移動学習および能動的学習ソリューションの提案と検討を行う。
我々は、ソーシャルメディアから認知不協和の言語サンプルを収集する、特定のまれなクラス問題に対する実験を行う。
提案手法は,アノテーションをガイドし,最終的にモデルの精度を向上させるためのシンプルで効果的な戦略である。
論文 参考訳(メタデータ) (2023-05-03T23:29:05Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Mixed-order self-paced curriculum learning for universal lesion
detection [36.198165949330566]
自己評価カリキュラム学習(SCL)は,コンピュータビジョンや自然言語処理などにおいて,その大きな可能性を実証している。
オンラインデータの難易度推定に基づいて、簡単なサンプリングを実装している。
ほとんどのSCL手法は、初期のトレーニング段階でデータの難易度を推定し、ハードのサンプルを重み付けするロスベースの戦略を採用している。
論文 参考訳(メタデータ) (2023-02-09T14:52:44Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。