論文の概要: Modernizing Ground Truth: Four Shifts Toward Improving Reliability and Validity in AI in Education
- arxiv url: http://arxiv.org/abs/2603.29141v1
- Date: Tue, 31 Mar 2026 01:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.993081
- Title: Modernizing Ground Truth: Four Shifts Toward Improving Reliability and Validity in AI in Education
- Title(参考訳): 地底真理の近代化 - 教育におけるAIの信頼性と妥当性向上に向けた4つの変化
- Authors: Danielle R. Thomas, Conrad Borchers, Kirk P. Vanacore, Kenneth R. Koedinger, René F. Kizilcec,
- Abstract要約: ジェネレーティブ・人工知能(GenAI)は現在、教育に広く普及しているが、GenAIシステムの有効性は、それらを訓練し評価するために使用されるラベル付きデータの質と解釈に制約されている。
我々は,多くの教育評価や実践支援設定には,高参照構造やスキュードラベル分布などの課題が含まれていると論じている。
1) IRR を機械的受容閾値(例えば k > 0.8 )ではなく,不一致を局所化し,構成を洗練するための診断信号として扱うこと,(2) レーダの専門知識,コードブックの開発,和解手順,セグメンテーションの透過的な報告を必要とすること,の4つの実践的シフトを提案する。
- 参考スコア(独自算出の注目度): 3.275822752813799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Artificial Intelligence (GenAI) is now widespread in education, yet the efficacy of GenAI systems remains constrained by the quality and interpretation of the labeled data used to train and evaluate them. Studies commonly report inter-rater reliability (IRR), often summarized by a single coefficient such as Cohen's kappa (k), as a gatekeeper to ``ground truth.'' We argue that many educational assessment and practice support settings include challenges, such as high-inference constructs, skewed label distributions, and temporally segmented multimodal data, which yield potential misapplication or misinterpretation of threshold-based heuristics for IRR. The growing use of large language models as annotators and judges introduces risks such as automation bias and circular validation. We propose four practical shifts for establishing ground truth: (1) treat IRR as a diagnostic signal to localize disagreement and refine constructs rather than a mechanical acceptance threshold (e.g., k > 0.8); (2) require transparent reporting of rater expertise, codebook development, reconciliation procedures, and segmentation rules; (3) mitigate risks in LLM annotation through bias audits and verification workflows; and (4) complement agreement statistics with validity and effectiveness evidence for the intended use, including uncertainty-aware labeling (e.g., assigning different labels to the same item to capture nuance), criterion-related checks (e.g., predictive tests to check if labels forecast the intended outcome), and close-the-loop evaluations of whether systems trained on these labels improve learning beyond a reasonable control. We illustrate these shifts through case studies of multimodal tutoring data and provide actionable recommendations toward strengthening the evidence base of labeled AIED datasets.
- Abstract(参考訳): ジェネレーティブ・人工知能(GenAI)は現在、教育に広く普及しているが、GenAIシステムの有効性は、それらを訓練し評価するために使用されるラベル付きデータの質と解釈に制約されている。
研究者は、しばしばコーエンのカッパ (k) のような単一の係数で要約されるラター間信頼性 (IRR) を「地下真実」のゲートキーパーとして報告する。
「''教育評価と実践支援の設定の多くは、高参照構造、スキューラベル分布、時間分割マルチモーダルデータなどの課題を含んでおり、IRRに対するしきい値に基づくヒューリスティックスの誤用や誤解釈をもたらす可能性がある。
アノテーションや判断器として大規模言語モデルの利用が増加し、自動化バイアスや円形検証といったリスクがもたらされる。
IRR を機械的受容閾値(例えば k > 0.8 )ではなく、不一致をローカライズする診断信号として扱うためには、(2) レーダの専門知識、コードブック開発、和解手続き、セグメンテーションルールの透過的な報告を必要とすること、(3) バイアス監査とワークフローワークフローを通して LLM アノテーションのリスクを軽減すること、(4) 不確実性認識ラベル付け(例えば、異なるラベルを同一項目に割り当ててニュアンスを捕捉する)、基準関連チェック(ラベルが目的とする結果を予測するための予測テスト)を含む、意図された目的に対する妥当性と有効性を示す合意統計を補完すること、の4つの実践的シフトを提案する。
マルチモーダル・チュータリングデータのケーススタディを通じて、これらのシフトを説明し、ラベル付きAIEDデータセットのエビデンスベースを強化するための実用的なレコメンデーションを提供する。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - CleverCatch: A Knowledge-Guided Weak Supervision Model for Fraud Detection [0.36944296923226316]
CleverCatchは、不正な処方の振る舞いを検出するために設計された知識誘導弱監視モデルである。
このアプローチでは、構造化ドメインの専門知識をニューラルネットワークに統合し、共有埋め込みスペース内のルールとデータサンプルを調整する。
大規模な実世界のデータセットの実験では、CleverCatchは4つの最先端の異常検出ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-15T06:49:31Z) - Beyond Agreement: Rethinking Ground Truth in Educational AI Annotation [1.8434042562191815]
我々は、注釈品質ハッパーのゲートキーパーとしての人間間信頼性(IRR)への過度な依存が、データの分類に進展していると論じる。
本稿では,マルチラベルアノテーションスキーム,エキスパートベースアプローチ,クローズ・ザ・ループの有効性など,補完的な評価手法の5つの例を紹介する。
我々は、アノテーションの品質と基礎的真実を再考し、合意のみに対する妥当性と教育的影響を優先することを求める。
論文 参考訳(メタデータ) (2025-07-31T20:05:26Z) - Stochastically Dominant Peer Prediction [11.183872292320824]
我々は、真理報告の強い保証として、支配的支配的(SD-truthfulness)を提案する。
単純な解 -- バイナリロータリーに丸めること -- は、SDトラスフルネスを強制するが、しばしば感度を低下させる。
ラウンドリングのより慎重な適用が、感度をよりよく維持できることを示す。
論文 参考訳(メタデータ) (2025-06-02T21:07:24Z) - Incentivizing Truthful Language Models via Peer Elicitation Games [13.262897952363147]
大きな言語モデル(LLM)は強力な生成能力を示しているが、矛盾や幻覚の傾向が強い。
我々は,異なるベースモデルからインスタンス化されたジェネレータと複数の識別器を含むピア・エリケーション機構を通じて,LPMを整列させる学習自由ゲーム理論フレームワークであるPeer Elicitation Games (PEG)を紹介した。
論文 参考訳(メタデータ) (2025-05-19T18:16:58Z) - Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Robust Representation Learning for Unreliable Partial Label Learning [86.909511808373]
部分ラベル学習(Partial Label Learning, PLL)は、弱い教師付き学習の一種で、各トレーニングインスタンスに候補ラベルのセットが割り当てられる。
これはUn Reliable partial Label Learning (UPLL) と呼ばれ、部分ラベルの本質的な信頼性の欠如とあいまいさにより、さらなる複雑さをもたらす。
本研究では,信頼できない部分ラベルに対するモデル強化を支援するために,信頼性に欠けるコントラスト学習を活用するUnreliability-Robust Representation Learning framework(URRL)を提案する。
論文 参考訳(メタデータ) (2023-08-31T13:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。