論文の概要: Bayesian Active Learning for Multi-Criteria Comparative Judgement in Educational Assessment
- arxiv url: http://arxiv.org/abs/2503.00479v2
- Date: Sun, 23 Mar 2025 20:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:32:32.863966
- Title: Bayesian Active Learning for Multi-Criteria Comparative Judgement in Educational Assessment
- Title(参考訳): ベイジアンアクティブラーニングによる教育評価における多段階比較判断
- Authors: Andy Gray, Alma Rahat, Tom Crick, Stephen Lindsay,
- Abstract要約: 比較判断(CJ)は、仕事を個別の基準に分解するのではなく、全体的評価によって代替的な評価手法を提供する。
この方法は、人間によるニュアンスの比較能力を活用し、より信頼性が高く有効な評価を得る。
ルーブリックは教育で広く使われており、グレーディングと詳細なフィードバックのための構造化された基準を提供しています。
これにより、CJの総合的なランキングと、基準に基づくパフォーマンスのブレークダウンの必要性の間にギャップが生じる。
- 参考スコア(独自算出の注目度): 3.0098452499209705
- License:
- Abstract: Comparative Judgement (CJ) provides an alternative assessment approach by evaluating work holistically rather than breaking it into discrete criteria. This method leverages human ability to make nuanced comparisons, yielding more reliable and valid assessments. CJ aligns with real-world evaluations, where overall quality emerges from the interplay of various elements. However, rubrics remain widely used in education, offering structured criteria for grading and detailed feedback. This creates a gap between CJ's holistic ranking and the need for criterion-based performance breakdowns. This paper addresses this gap using a Bayesian approach. We build on Bayesian CJ (BCJ) by Gray et al., which directly models preferences instead of using likelihoods over total scores, allowing for expected ranks with uncertainty estimation. Their entropy-based active learning method selects the most informative pairwise comparisons for assessors. We extend BCJ to handle multiple independent learning outcome (LO) components, defined by a rubric, enabling both holistic and component-wise predictive rankings with uncertainty estimates. Additionally, we propose a method to aggregate entropies and identify the most informative comparison for assessors. Experiments on synthetic and real data demonstrate our method's effectiveness. Finally, we address a key limitation of BCJ, which is the inability to quantify assessor agreement. We show how to derive agreement levels, enhancing transparency in assessment.
- Abstract(参考訳): 比較判断(CJ)は、仕事を個別の基準に分解するのではなく、全体的評価によって代替的な評価手法を提供する。
この方法は、人間によるニュアンスの比較能力を活用し、より信頼性が高く有効な評価を得る。
CJは、様々な要素の相互作用から全体的な品質が現れる現実世界の評価と一致します。
しかし、ルーブリックは教育で広く使われており、格付けと詳細なフィードバックのための構造化された基準を提供している。
これにより、CJの総合的なランキングと、基準に基づくパフォーマンスのブレークダウンの必要性の間にギャップが生じる。
本稿では,ベイズ的手法を用いて,このギャップに対処する。
We build on Bayesian CJ (BCJ) by Gray et al , which is direct models insteads using chances over total scores, allow for expected rank with uncertainty estimation。
彼らのエントロピーに基づく能動学習法は,評価者に対して最も有意義なペアワイズ比較を選択する。
我々はBCJを拡張し、複数の独立した学習結果(LO)コンポーネントをルーブリックで定義し、不確実性推定を伴う全体的およびコンポーネント的予測的ランキングの両方を可能にした。
さらに,エントロピーを集約し,評価者に対する最も情報性の高い比較を行う手法を提案する。
合成データおよび実データを用いた実験により,本手法の有効性が示された。
最後に,評価者合意の定量化が不可能なBCJの限界に対処する。
合意レベルを導出し、アセスメントの透明性を高める方法を示します。
関連論文リスト
- Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge [90.8674158031845]
提案するクラウド・ベース・コンピレーション・アセスメントは,提案するクラウド・レスポンスを,候補の応答と比較するための追加のクラウド・レスポンスを導入する。
このプロセスはLLM-as-a-Judgeを効果的に誘導し、より詳細なCoT判定を提供する。
提案手法は, 高い品質のCoTを製造し, 蒸留を判断し, 拒絶サンプリングにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-18T03:31:06Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。
CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - Evaluating Agents using Social Choice Theory [20.58298173034909]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。
各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。
これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文 参考訳(メタデータ) (2023-12-05T20:40:37Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - A Bayesian Active Learning Approach to Comparative Judgement [3.0098452499209705]
伝統的なマーキングは、不整合と無意識のバイアスの源であり、評価者に高い認知的負荷を課す。
CJでは、評価者には2つのアイテムが提示され、より良いものを選択するように求められます。
CJはマーキングの信頼できる方法と考えられているが、透明性に関する懸念がある。
比較項目のランクを決定するために,CJ (BCJ) に対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-25T10:33:44Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。