論文の概要: Controlling Cloze-test Question Item Difficulty with PLM-based Surrogate
Models for IRT Assessment
- arxiv url: http://arxiv.org/abs/2403.01456v1
- Date: Sun, 3 Mar 2024 09:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:13:42.664160
- Title: Controlling Cloze-test Question Item Difficulty with PLM-based Surrogate
Models for IRT Assessment
- Title(参考訳): IRT評価のための PLM に基づくサーロゲートモデルによるクローズテスト質問項目の制御
- Authors: Jingshen Zhang and Jiajun Xie and Xinying Qiu
- Abstract要約: 本稿では,項目応答理論(IRT)の評価を可能にする代理モデルとして,事前学習言語モデル(PLM)のトレーニングを提案する。
また,不正な邪魔者を減らすためのランキングルールを用いて,ギャップと邪魔者の双方の難易度を制御するための2つの戦略を提案する。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Item difficulty plays a crucial role in adaptive testing. However, few works
have focused on generating questions of varying difficulty levels, especially
for multiple-choice (MC) cloze tests. We propose training pre-trained language
models (PLMs) as surrogate models to enable item response theory (IRT)
assessment, avoiding the need for human test subjects. We also propose two
strategies to control the difficulty levels of both the gaps and the
distractors using ranking rules to reduce invalid distractors. Experimentation
on a benchmark dataset demonstrates that our proposed framework and methods can
effectively control and evaluate the difficulty levels of MC cloze tests.
- Abstract(参考訳): アイテムの難しさは適応テストにおいて重要な役割を果たす。
しかし、特にマルチチョイス(MC)クローゼテストにおいて、様々な難易度を問うことに焦点を当てた研究はほとんどない。
本稿では,課題応答理論(irt)評価を可能にするためのサロゲートモデルとして,事前学習型言語モデル(plms)を提案する。
また,不正な邪魔者を減らすためのランキングルールを用いて,ギャップと邪魔者の両方の難易度を制御するための2つの戦略を提案する。
ベンチマークデータセットを用いた実験により,提案手法はMCクローゼテストの難易度を効果的に制御し,評価できることを示した。
関連論文リスト
- Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks? [74.88417042125985]
複雑さの異なるタスクにおいて、様々な品質レベルで監視データを提供する様々なデータ駆動戦略について検討する。
ハードタスクの監視における結果エラー率が高い場合でも、そのようなデータによるトレーニングは、より簡単なサブタスクの監督を完璧に上回ります。
また,本研究の結果から,タスク・インスペクションとサブタスク・インスペクションを補完することで,顕著なパフォーマンス向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-27T17:55:27Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Hybrid Classification-Regression Adaptive Loss for Dense Object Detection [19.180514552400883]
HCRALと呼ばれるハイブリッド分類回帰適応損失を提案する。
本稿では,タスク間の監視,タスクの不整合に対処するためのResidual of Classification and IoU (RCI)モジュールと,各タスク内の難読化サンプルに焦点をあてる Conditioning Factor (CF) を紹介する。
また, 適応型トレーニングサンプル選択(EATSS)という新たな戦略を導入し, 分類と回帰の不整合を示すサンプルを新たに提供した。
論文 参考訳(メタデータ) (2024-08-30T10:31:39Z) - Active Testing of Large Language Model via Multi-Stage Sampling [17.89896012553348]
AcTracerは,大規模言語モデル(LLM)に適した,アクティブなテストフレームワークである。
ほぼ最適な性能推定を達成するために、戦略的にテストデータの小さなサブセットを選択する。
実験の結果,AcTracerは既存手法と比較して最先端の性能を達成できた。
論文 参考訳(メタデータ) (2024-08-07T06:17:48Z) - ActiveGLAE: A Benchmark for Deep Active Learning with Transformers [5.326702806697265]
Deep Active Learning (DAL)は、モデルを最大限に学習したいインスタンスアノテーションを積極的にクエリできるようにすることで、アノテーションのコストを削減しようとしている。
DALの分野では、トランスフォーマーベースの言語モデルに対する標準化された評価プロトコルが存在しない。
DALを評価するための総合的なデータセットと評価ガイドラインであるActiveGLAEベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-16T13:07:29Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Transfer and Active Learning for Dissonance Detection: Addressing the
Rare-Class Challenge [7.61140479230184]
本稿では,不協和検出の希少クラス問題に対する移動学習および能動的学習ソリューションの提案と検討を行う。
我々は、ソーシャルメディアから認知不協和の言語サンプルを収集する、特定のまれなクラス問題に対する実験を行う。
提案手法は,アノテーションをガイドし,最終的にモデルの精度を向上させるためのシンプルで効果的な戦略である。
論文 参考訳(メタデータ) (2023-05-03T23:29:05Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Mixed-order self-paced curriculum learning for universal lesion
detection [36.198165949330566]
自己評価カリキュラム学習(SCL)は,コンピュータビジョンや自然言語処理などにおいて,その大きな可能性を実証している。
オンラインデータの難易度推定に基づいて、簡単なサンプリングを実装している。
ほとんどのSCL手法は、初期のトレーニング段階でデータの難易度を推定し、ハードのサンプルを重み付けするロスベースの戦略を採用している。
論文 参考訳(メタデータ) (2023-02-09T14:52:44Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。