論文の概要: The Impact of Item-Writing Flaws on Difficulty and Discrimination in Item Response Theory
- arxiv url: http://arxiv.org/abs/2503.10533v1
- Date: Thu, 13 Mar 2025 16:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:55:25.912122
- Title: The Impact of Item-Writing Flaws on Difficulty and Discrimination in Item Response Theory
- Title(参考訳): 項目対応理論の難易度と識別性に及ぼす項目書き込み欠陥の影響
- Authors: Robin Schmucker, Steven Moore,
- Abstract要約: 質の高いテスト項目は、特にIRTにおける教育評価に不可欠である
従来の検証方法は、アイテムの難易度と差別を見積もるために、リソース集約的なパイロットテストに依存している。
テキスト機能に基づいたテスト項目評価のためのドメイン汎用アプローチとして,IWF(Item-Writing Flaw)ルーブリックが登場した。
- 参考スコア(独自算出の注目度): 2.3633885460047774
- License:
- Abstract: High-quality test items are essential for educational assessments, particularly within Item Response Theory (IRT). Traditional validation methods rely on resource-intensive pilot testing to estimate item difficulty and discrimination. More recently, Item-Writing Flaw (IWF) rubrics emerged as a domain-general approach for evaluating test items based on textual features. However, their relationship to IRT parameters remains underexplored. To address this gap, we conducted a study involving over 7,000 multiple-choice questions across various STEM subjects (e.g., math and biology). Using an automated approach, we annotated each question with a 19-criteria IWF rubric and studied relationships to data-driven IRT parameters. Our analysis revealed statistically significant links between the number of IWFs and IRT difficulty and discrimination parameters, particularly in life and physical science domains. We further observed how specific IWF criteria can impact item quality more and less severely (e.g., negative wording vs. implausible distractors). Overall, while IWFs are useful for predicting IRT parameters--particularly for screening low-difficulty MCQs--they cannot replace traditional data-driven validation methods. Our findings highlight the need for further research on domain-general evaluation rubrics and algorithms that understand domain-specific content for robust item validation.
- Abstract(参考訳): 高品質なテスト項目は、特にIRT(Item Response Theory)において、教育評価に不可欠である。
従来の検証方法は、アイテムの難易度と差別を見積もるために、リソース集約的なパイロットテストに依存している。
最近では、テキスト機能に基づいたテスト項目評価のためのドメイン汎用アプローチとして、IWF(Item-Writing Flaw)ルーブリックが登場している。
しかし、IRTパラメーターとの関係はいまだ解明されていない。
このギャップに対処するため、様々なSTEM被験者(例えば、数学、生物学)を対象に7000以上の複数選択質問を行った。
自動手法を用いて,19基準のIWFルーブリックを用いて各質問に注釈を付け,データ駆動IRTパラメータとの関係について検討した。
分析の結果,IWFの数とIRTの難易度と識別パラメータの関係,特に生命科学と物理科学の分野では,統計的に有意な相関が認められた。
さらに,特定のIWF基準が項目品質にどのような影響を及ぼすか(例えば,否定的な言い回しと不愉快な気晴らし)も観察した。
全体として、IWFはIRTパラメーターを予測するのに役立ち、特に低微分MCQをスクリーニングするのに役立ちます。
本研究は,堅牢な項目検証のために,ドメイン固有コンテンツを理解するための,ドメイン汎用評価ルーブリックとアルゴリズムのさらなる研究の必要性を強調した。
関連論文リスト
- Who Writes What: Unveiling the Impact of Author Roles on AI-generated Text Detection [44.05134959039957]
本稿では,社会言語学的属性・ジェンダー,CEFR習熟度,学術分野,言語環境に影響を及ぼすAIテキスト検出装置について検討する。
CEFRの習熟度と言語環境は一貫して検出器の精度に影響を与え,性別や学術分野は検出器に依存した効果を示した。
これらの発見は、特定の人口集団に不公平に罰を与えるのを避けるために、社会的に認識されたAIテキストの検出が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-02-18T07:49:31Z) - Review of Demographic Bias in Face Recognition [2.7624021966289605]
本稿では、FRにおける多面的偏見の側面を包括的に概観した研究成果をまとめる。
FRにおける人口格差に関連する主な原因,データセット,評価指標,緩和手法について検討した。
本稿は、研究者に対して、同等で信頼性の高いFRシステムに対する重要なニーズを強調しつつ、最先端技術に対する統一的な視点を提供することを目的とする。
論文 参考訳(メタデータ) (2025-02-04T13:28:49Z) - Enforcing Fundamental Relations via Adversarial Attacks on Input Parameter Correlations [76.2226569692207]
入力パラメータ間の相関は、多くの科学的分類タスクにおいて重要な役割を果たす。
我々はRandom Distribution Shuffle Attack (RDSA)と呼ばれる新たな敵攻撃アルゴリズムを提案する。
6つの分類課題においてRDSAの有効性を示す。
論文 参考訳(メタデータ) (2025-01-09T21:45:09Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - FedAD-Bench: A Unified Benchmark for Federated Unsupervised Anomaly Detection in Tabular Data [11.42231457116486]
FedAD-Benchは、フェデレート学習の文脈における教師なし異常検出アルゴリズムを評価するためのベンチマークである。
モデル集約の非効率性やメトリクスの不確実性といった重要な課題を特定します。
本研究は,フェデレートされた異常検出における今後の研究・開発を導くための標準化されたベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-08-08T13:14:19Z) - Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文 参考訳(メタデータ) (2024-06-25T20:52:31Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Feature Selection for Imbalanced Data with Deep Sparse Autoencoders
Ensemble [0.5352699766206808]
クラスの不均衡は、学習アルゴリズムの多くのドメインアプリケーションで一般的な問題です。
本稿では,Deep Sparse AutoEncoders Ensembleの再構成誤差に基づいて,フィルタFSアルゴリズムのランク付け機能を提案する。
サンプルサイズの異なる高次元データセットに対する実験において,本アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2021-03-22T09:17:08Z) - Through the Data Management Lens: Experimental Analysis and Evaluation
of Fair Classification [75.49600684537117]
データ管理研究は、データとアルゴリズムの公平性に関連するトピックに対する存在感と関心が高まっている。
我々は,その正しさ,公平性,効率性,スケーラビリティ,安定性よりも,13の公正な分類アプローチと追加の変種を幅広く分析している。
我々の分析は、異なるメトリクスとハイレベルなアプローチ特性がパフォーマンスの異なる側面に与える影響に関する新しい洞察を強調します。
論文 参考訳(メタデータ) (2021-01-18T22:55:40Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。