論文の概要: Beyond Agreement: Rethinking Ground Truth in Educational AI Annotation
- arxiv url: http://arxiv.org/abs/2508.00143v1
- Date: Thu, 31 Jul 2025 20:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.661585
- Title: Beyond Agreement: Rethinking Ground Truth in Educational AI Annotation
- Title(参考訳): 合意を超えて: 教育AIアノテーションの真実を再考する
- Authors: Danielle R. Thomas, Conrad Borchers, Kenneth R. Koedinger,
- Abstract要約: 我々は、注釈品質ハッパーのゲートキーパーとしての人間間信頼性(IRR)への過度な依存が、データの分類に進展していると論じる。
本稿では,マルチラベルアノテーションスキーム,エキスパートベースアプローチ,クローズ・ザ・ループの有効性など,補完的な評価手法の5つの例を紹介する。
我々は、アノテーションの品質と基礎的真実を再考し、合意のみに対する妥当性と教育的影響を優先することを求める。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can be notoriously imperfect evaluators. They are often biased, unreliable, and unfit to define "ground truth." Yet, given the surging need to produce large amounts of training data in educational applications using AI, traditional inter-rater reliability (IRR) metrics like Cohen's kappa remain central to validating labeled data. IRR remains a cornerstone of many machine learning pipelines for educational data. Take, for example, the classification of tutors' moves in dialogues or labeling open responses in machine-graded assessments. This position paper argues that overreliance on human IRR as a gatekeeper for annotation quality hampers progress in classifying data in ways that are valid and predictive in relation to improving learning. To address this issue, we highlight five examples of complementary evaluation methods, such as multi-label annotation schemes, expert-based approaches, and close-the-loop validity. We argue that these approaches are in a better position to produce training data and subsequent models that produce improved student learning and more actionable insights than IRR approaches alone. We also emphasize the importance of external validity, for example, by establishing a procedure of validating tutor moves and demonstrating that it works across many categories of tutor actions (e.g., providing hints). We call on the field to rethink annotation quality and ground truth--prioritizing validity and educational impact over consensus alone.
- Abstract(参考訳): 人間は不完全な評価者として悪名高い。
それらはしばしば偏見があり、信頼できない、そして「地下の真実」を定義するのに不適当である。
しかし、AIを使用して教育アプリケーションで大量のトレーニングデータを生成する必要性が高まっていることを考えると、Cohen氏のKappaのような従来のレーダ間信頼性(IRR)メトリクスは、ラベル付きデータの検証の中心のままである。
IRRは、教育データのための多くの機械学習パイプラインの基盤であり続けている。
例えば、対話における家庭教師の動きの分類や、機械級評価におけるオープンレスポンスのラベル付けなどが挙げられる。
本稿では,注釈品質ハッパーのゲートキーパーとしての人間のIRRへの過度な依存が,学習の改善に関連して有効かつ予測可能な方法でデータの分類を進めることを論じる。
この問題に対処するために,マルチラベルアノテーションスキーム,エキスパートベースアプローチ,ループに近い妥当性など,補完的な評価手法の例を5つ挙げる。
我々は、これらのアプローチが、IRRアプローチ単独よりも学生の学習を改善し、より実用的な洞察を生み出す訓練データやその後のモデルを作成する上で、より良い位置にあると論じている。
また,教師の動きを検証し,学習者の行動のカテゴリ(ヒントの提供など)にまたがって機能することを示す手順を確立することで,外部の妥当性の重要性も強調する。
我々は、アノテーションの品質と基礎的真実を再考し、合意のみに対する妥当性と教育的影響を優先することを求める。
関連論文リスト
- Rectifying Privacy and Efficacy Measurements in Machine Unlearning: A New Inference Attack Perspective [42.003102851493885]
本稿では,不正確な未学習手法の評価において重要なギャップに対処するため,RULI (Rectified Unlearning Evaluation Framework via Likelihood Inference)を提案する。
RULIは、未学習の有効性とプライバシリスクをサンプルごとの粒度で測定するために、二重目的攻撃を導入している。
既存の手法で過小評価されているプライバシーリスクを暴露し,最先端のアンラーニング手法の重大な脆弱性を明らかにした。
論文 参考訳(メタデータ) (2025-06-16T00:30:02Z) - Active Learning Methods for Efficient Data Utilization and Model Performance Enhancement [5.4044723481768235]
本稿では,より少ないラベル付き例を用いてモデルの性能向上を支援する機械学習の戦略である,アクティブラーニング(AL)の概要を紹介する。
ALの基本概念を導入し、コンピュータビジョン、自然言語処理、トランスファーラーニング、実世界のアプリケーションなど、様々な分野でどのように使われているかについて議論する。
論文 参考訳(メタデータ) (2025-04-21T20:42:13Z) - Deep Fair Learning: A Unified Framework for Fine-tuning Representations with Sufficient Networks [8.616743904155419]
本研究では,十分な次元削減と深層学習を統合し,公正かつ情報的表現を構築するフレームワークを提案する。
微調整中に新たなペナルティ項を導入することにより、センシティブな属性と学習された表現との間の条件付き独立性を強制する。
提案手法は, 公平性と実用性とのバランスが良好であり, 最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-04-08T22:24:22Z) - Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
本稿では,下流のタスククラスと意味的類似性を示すクラスを忘れる,厳密なアンラーニング評価手法を提案する。
われわれのベンチマークは、現実的な条件下での未学習アルゴリズム評価のための標準化されたプロトコルとして機能することを願っている。
論文 参考訳(メタデータ) (2025-03-10T07:11:34Z) - Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Approximate Unlearning Completeness [30.596695293390415]
本稿では, ライフサイクル・アンラーニング・コミットメント・マネジメント(LUCM)の課題について紹介する。
サンプルレベルの未学習完全性を評価するための効率的な指標を提案する。
このメトリクスは、未学習ライフサイクル全体を通して、未学習の異常を監視するツールとして機能することを示す。
論文 参考訳(メタデータ) (2024-03-19T15:37:27Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Assessment Modeling: Fundamental Pre-training Tasks for Interactive
Educational Systems [3.269851859258154]
ラベルスカース問題を回避する一般的な方法は、学習項目の内容の表現を学習するためのモデルを事前学習することである。
本稿では,総合的な対話型教育システムのための基礎的事前学習課題のクラスであるアセスメント・モデリングを提案する。
論文 参考訳(メタデータ) (2020-01-01T02:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。