Fugu-MT 論文翻訳(概要): Controlling Cloze-test Question Item Difficulty with PLM-based Surrogate Models for IRT Assessment

論文の概要: Controlling Cloze-test Question Item Difficulty with PLM-based Surrogate Models for IRT Assessment

arxiv url: http://arxiv.org/abs/2403.01456v1
Date: Sun, 3 Mar 2024 09:18:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 21:13:42.664160
Title: Controlling Cloze-test Question Item Difficulty with PLM-based Surrogate Models for IRT Assessment
Title（参考訳）: IRT評価のための PLM に基づくサーロゲートモデルによるクローズテスト質問項目の制御
Authors: Jingshen Zhang and Jiajun Xie and Xinying Qiu
Abstract要約: 本稿では,項目応答理論(IRT)の評価を可能にする代理モデルとして,事前学習言語モデル(PLM)のトレーニングを提案する。また,不正な邪魔者を減らすためのランキングルールを用いて,ギャップと邪魔者の双方の難易度を制御するための2つの戦略を提案する。
参考スコア（独自算出の注目度）: 0.6138671548064356
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Item difficulty plays a crucial role in adaptive testing. However, few works have focused on generating questions of varying difficulty levels, especially for multiple-choice (MC) cloze tests. We propose training pre-trained language models (PLMs) as surrogate models to enable item response theory (IRT) assessment, avoiding the need for human test subjects. We also propose two strategies to control the difficulty levels of both the gaps and the distractors using ranking rules to reduce invalid distractors. Experimentation on a benchmark dataset demonstrates that our proposed framework and methods can effectively control and evaluate the difficulty levels of MC cloze tests.
Abstract（参考訳）: アイテムの難しさは適応テストにおいて重要な役割を果たす。しかし、特にマルチチョイス(MC)クローゼテストにおいて、様々な難易度を問うことに焦点を当てた研究はほとんどない。本稿では,課題応答理論(irt)評価を可能にするためのサロゲートモデルとして,事前学習型言語モデル(plms)を提案する。また,不正な邪魔者を減らすためのランキングルールを用いて,ギャップと邪魔者の両方の難易度を制御するための2つの戦略を提案する。ベンチマークデータセットを用いた実験により,提案手法はMCクローゼテストの難易度を効果的に制御し,評価できることを示した。

関連論文リスト

Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文参考訳（メタデータ） (2025-03-17T16:15:02Z)
DAST: Difficulty-Aware Self-Training on Large Language Models [68.30467836807362]
大規模言語モデル(LLM)の自己学習手法は、常に挑戦的なクエリのアンダーサンプルである。本研究は,自己生成応答の量と品質を改善することに焦点を当てた,難易度を考慮した自己学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-12T03:36:45Z)
Loss-Aware Curriculum Learning for Chinese Grammatical Error Correction [21.82403446634522]
中国語の文法的誤り訂正(CGEC)は、入力された中国語文の誤りを検出し、訂正することを目的としている。現在のアプローチでは、修正の難しさはインスタンスによって異なり、これらのサンプルを等しく扱うことは無視されている。この問題に対処する多粒度カリキュラム学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-31T08:11:49Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks? [74.88417042125985]
複雑さの異なるタスクにおいて、様々な品質レベルで監視データを提供する様々なデータ駆動戦略について検討する。ハードタスクの監視における結果エラー率が高い場合でも、そのようなデータによるトレーニングは、より簡単なサブタスクの監督を完璧に上回ります。また,本研究の結果から,タスク・インスペクションとサブタスク・インスペクションを補完することで,顕著なパフォーマンス向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-10-27T17:55:27Z)
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。 TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文参考訳（メタデータ） (2024-10-02T18:17:54Z)
Hybrid Classification-Regression Adaptive Loss for Dense Object Detection [19.180514552400883]
HCRALと呼ばれるハイブリッド分類回帰適応損失を提案する。本稿では,タスク間の監視,タスクの不整合に対処するためのResidual of Classification and IoU (RCI)モジュールと,各タスク内の難読化サンプルに焦点をあてる Conditioning Factor (CF) を紹介する。また, 適応型トレーニングサンプル選択(EATSS)という新たな戦略を導入し, 分類と回帰の不整合を示すサンプルを新たに提供した。
論文参考訳（メタデータ） (2024-08-30T10:31:39Z)
Active Testing of Large Language Model via Multi-Stage Sampling [17.89896012553348]
AcTracerは,大規模言語モデル(LLM)に適した,アクティブなテストフレームワークである。ほぼ最適な性能推定を達成するために、戦略的にテストデータの小さなサブセットを選択する。実験の結果,AcTracerは既存手法と比較して最先端の性能を達成できた。
論文参考訳（メタデータ） (2024-08-07T06:17:48Z)
ActiveGLAE: A Benchmark for Deep Active Learning with Transformers [5.326702806697265]
Deep Active Learning (DAL)は、モデルを最大限に学習したいインスタンスアノテーションを積極的にクエリできるようにすることで、アノテーションのコストを削減しようとしている。 DALの分野では、トランスフォーマーベースの言語モデルに対する標準化された評価プロトコルが存在しない。 DALを評価するための総合的なデータセットと評価ガイドラインであるActiveGLAEベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-16T13:07:29Z)
On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。 TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文参考訳（メタデータ） (2023-06-06T09:35:29Z)
Transfer and Active Learning for Dissonance Detection: Addressing the Rare-Class Challenge [7.61140479230184]
本稿では,不協和検出の希少クラス問題に対する移動学習および能動的学習ソリューションの提案と検討を行う。我々は、ソーシャルメディアから認知不協和の言語サンプルを収集する、特定のまれなクラス問題に対する実験を行う。提案手法は,アノテーションをガイドし,最終的にモデルの精度を向上させるためのシンプルで効果的な戦略である。
論文参考訳（メタデータ） (2023-05-03T23:29:05Z)
A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文参考訳（メタデータ） (2023-03-27T16:32:21Z)
Mixed-order self-paced curriculum learning for universal lesion detection [36.198165949330566]
自己評価カリキュラム学習(SCL)は,コンピュータビジョンや自然言語処理などにおいて,その大きな可能性を実証している。オンラインデータの難易度推定に基づいて、簡単なサンプリングを実装している。ほとんどのSCL手法は、初期のトレーニング段階でデータの難易度を推定し、ハードのサンプルを重み付けするロスベースの戦略を採用している。
論文参考訳（メタデータ） (2023-02-09T14:52:44Z)
Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。 MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文参考訳（メタデータ） (2022-07-04T14:08:59Z)
Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文参考訳（メタデータ） (2022-04-06T06:39:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。