論文の概要: The Impact of Item-Writing Flaws on Difficulty and Discrimination in Item Response Theory
- arxiv url: http://arxiv.org/abs/2503.10533v3
- Date: Thu, 07 Aug 2025 01:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 11:49:27.051802
- Title: The Impact of Item-Writing Flaws on Difficulty and Discrimination in Item Response Theory
- Title(参考訳): 項目対応理論の難易度と識別性に及ぼす項目書き込み欠陥の影響
- Authors: Robin Schmucker, Steven Moore,
- Abstract要約: 質の高いテスト項目は、特にIRTにおける教育評価に不可欠である
従来の検証方法は、アイテムの難易度と差別を見積もるために、リソース集約的なパイロットテストに依存している。
テキスト機能に基づいたテスト項目評価のためのドメイン汎用アプローチとして,IWF(Item-Writing Flaw)ルーブリックが登場した。
- 参考スコア(独自算出の注目度): 2.3633885460047774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-quality test items are essential for educational assessments, particularly within Item Response Theory (IRT). Traditional validation methods rely on resource-intensive pilot testing to estimate item difficulty and discrimination. More recently, Item-Writing Flaw (IWF) rubrics emerged as a domain-general approach for evaluating test items based on textual features. This method offers a scalable, pre-deployment evaluation without requiring student data, but its predictive validity concerning empirical IRT parameters is underexplored. To address this gap, we conducted a study involving 7,126 multiple-choice questions across various STEM subjects (physical science, mathematics, and life/earth sciences). Using an automated approach, we annotated each question with a 19-criteria IWF rubric and studied relationships to data-driven IRT parameters. Our analysis revealed statistically significant links between the number of IWFs and IRT difficulty and discrimination parameters, particularly in life/earth and physical science domains. We further observed how specific IWF criteria can impact item quality more and less severely (e.g., negative wording vs. implausible distractors) and how they might make a question more or less challenging. Overall, our findings establish automated IWF analysis as a valuable supplement to traditional validation, providing an efficient method for initial item screening, particularly for flagging low-difficulty MCQs. Our findings show the need for further research on domain-general evaluation rubrics and algorithms that understand domain-specific content for robust item validation.
- Abstract(参考訳): 高品質なテスト項目は、特にIRT(Item Response Theory)において、教育評価に不可欠である。
従来の検証方法は、アイテムの難易度と差別を見積もるために、リソース集約的なパイロットテストに依存している。
最近では、テキスト機能に基づいたテスト項目評価のためのドメイン汎用アプローチとして、IWF(Item-Writing Flaw)ルーブリックが登場している。
本手法は,学生データを必要としないスケーラブルで事前デプロイ評価を提供するが,経験的IRTパラメータに関する予測妥当性は過小評価されている。
このギャップに対処するため,さまざまなSTEM科目(物理科学,数学,生命・地球科学)で7,126問の複数選択質問を行った。
自動手法を用いて,19基準のIWFルーブリックを用いて各質問に注釈を付け,データ駆動IRTパラメータとの関係について検討した。
分析の結果,IWFの数とIRTの難易度と識別パラメータとの間には統計的に有意な関連があることが判明した。
さらに、特定のIWF基準がアイテムの品質にどれほど深刻な影響を及ぼすか(例えば、否定的な言い回しと不愉快な気晴らし)、また、どのようにして質問をもっと、あるいはより困難にするかを観察した。
以上の結果から,従来の検証に有効な自動IWF分析が確立され,特に低拡散性MCQのフラグ付けにおいて,初期項目のスクリーニングに有効な方法が得られた。
本研究は,堅牢な項目検証のために,ドメイン固有コンテンツを理解するための,ドメイン汎用評価ルーブリックとアルゴリズムのさらなる研究の必要性を示唆するものである。
関連論文リスト
- Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。
因果効果は肯定的か否定的か?
本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文 参考訳(メタデータ) (2025-05-30T07:13:01Z) - SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models [36.10798324093408]
SAS-Benchは、大規模言語モデル(LLM)ベースのショートアンサースコーリングタスクのベンチマークである。
詳細な、段階的なスコアリング、専門家による注釈付きエラーカテゴリ、さまざまな質問タイプを提供する。
また,1030の質問と4,109人の学生回答を含むオープンソースデータセットも公開しています。
論文 参考訳(メタデータ) (2025-05-12T05:43:21Z) - Exploring the Potential of Large Language Models for Estimating the Reading Comprehension Question Difficulty [2.335292678914151]
本研究では,Large Language Models (LLMs) の有効性を検討した。
また,OpenAI の GPT-4o と o1 を用いて,学習支援・読解評価 (SARA) データセットを用いた理解的質問の読解の難しさを推定する。
その結果, モデルがIRTパラメータと有意に一致した難易度推定値を生成する一方で, 極端項目特性に対する感度に顕著な差があることが示唆された。
論文 参考訳(メタデータ) (2025-02-25T02:28:48Z) - Who Writes What: Unveiling the Impact of Author Roles on AI-generated Text Detection [44.05134959039957]
本稿では,社会言語学的属性・ジェンダー,CEFR習熟度,学術分野,言語環境に影響を及ぼすAIテキスト検出装置について検討する。
CEFRの習熟度と言語環境は一貫して検出器の精度に影響を与え,性別や学術分野は検出器に依存した効果を示した。
これらの発見は、特定の人口集団に不公平に罰を与えるのを避けるために、社会的に認識されたAIテキストの検出が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-02-18T07:49:31Z) - Review of Demographic Bias in Face Recognition [2.7624021966289605]
本稿では、FRにおける多面的偏見の側面を包括的に概観した研究成果をまとめる。
FRにおける人口格差に関連する主な原因,データセット,評価指標,緩和手法について検討した。
本稿は、研究者に対して、同等で信頼性の高いFRシステムに対する重要なニーズを強調しつつ、最先端技術に対する統一的な視点を提供することを目的とする。
論文 参考訳(メタデータ) (2025-02-04T13:28:49Z) - Enforcing Fundamental Relations via Adversarial Attacks on Input Parameter Correlations [76.2226569692207]
入力パラメータ間の相関は、多くの科学的分類タスクにおいて重要な役割を果たす。
我々はRandom Distribution Shuffle Attack (RDSA)と呼ばれる新たな敵攻撃アルゴリズムを提案する。
6つの分類課題においてRDSAの有効性を示す。
論文 参考訳(メタデータ) (2025-01-09T21:45:09Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - FedAD-Bench: A Unified Benchmark for Federated Unsupervised Anomaly Detection in Tabular Data [11.42231457116486]
FedAD-Benchは、フェデレート学習の文脈における教師なし異常検出アルゴリズムを評価するためのベンチマークである。
モデル集約の非効率性やメトリクスの不確実性といった重要な課題を特定します。
本研究は,フェデレートされた異常検出における今後の研究・開発を導くための標準化されたベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-08-08T13:14:19Z) - Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文 参考訳(メタデータ) (2024-06-25T20:52:31Z) - Key Design Choices in Source-Free Unsupervised Domain Adaptation: An
In-depth Empirical Analysis [16.0130560365211]
本研究では、画像分類におけるSF-UDA(Source-Free Unsupervised Domain Adaptation)のベンチマークフレームワークを提供する。
この研究は、さまざまなSF-UDAテクニックを実証的に検証し、データセット間の一貫性を評価する。
トレーニング済みのデータセットと戦略を徹底的に評価し、特に教師付きおよび自己監督型の手法に重点を置いている。
論文 参考訳(メタデータ) (2024-02-25T13:37:36Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Feature Selection for Imbalanced Data with Deep Sparse Autoencoders
Ensemble [0.5352699766206808]
クラスの不均衡は、学習アルゴリズムの多くのドメインアプリケーションで一般的な問題です。
本稿では,Deep Sparse AutoEncoders Ensembleの再構成誤差に基づいて,フィルタFSアルゴリズムのランク付け機能を提案する。
サンプルサイズの異なる高次元データセットに対する実験において,本アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2021-03-22T09:17:08Z) - Through the Data Management Lens: Experimental Analysis and Evaluation
of Fair Classification [75.49600684537117]
データ管理研究は、データとアルゴリズムの公平性に関連するトピックに対する存在感と関心が高まっている。
我々は,その正しさ,公平性,効率性,スケーラビリティ,安定性よりも,13の公正な分類アプローチと追加の変種を幅広く分析している。
我々の分析は、異なるメトリクスとハイレベルなアプローチ特性がパフォーマンスの異なる側面に与える影響に関する新しい洞察を強調します。
論文 参考訳(メタデータ) (2021-01-18T22:55:40Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。