論文の概要: Rendering Transparency to Ranking in Educational Assessment via Bayesian Comparative Judgement
- arxiv url: http://arxiv.org/abs/2503.15549v1
- Date: Mon, 17 Mar 2025 20:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:36:15.831125
- Title: Rendering Transparency to Ranking in Educational Assessment via Bayesian Comparative Judgement
- Title(参考訳): ベイジアン比較判断による教育評価におけるランク付けへの適応
- Authors: Andy Gray, Alma Rahat, Stephen Lindsay, Jen Pearson, Tom Crick,
- Abstract要約: 本稿では,事前情報を判断プロセスに統合することにより,比較判断(BCJ)が透明性を高める方法を検討する。
BCJは結果の判断に確率を割り当て、不確実性の定量化と決定の信頼性に関する深い洞察を提供する。
BCJの利点と限界を強調し、さまざまな教育環境にまたがって現実世界のアプリケーションに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 2.8054775602970743
- License:
- Abstract: Ensuring transparency in educational assessment is increasingly critical, particularly post-pandemic, as demand grows for fairer and more reliable evaluation methods. Comparative Judgement (CJ) offers a promising alternative to traditional assessments, yet concerns remain about its perceived opacity. This paper examines how Bayesian Comparative Judgement (BCJ) enhances transparency by integrating prior information into the judgement process, providing a structured, data-driven approach that improves interpretability and accountability. BCJ assigns probabilities to judgement outcomes, offering quantifiable measures of uncertainty and deeper insights into decision confidence. By systematically tracking how prior data and successive judgements inform final rankings, BCJ clarifies the assessment process and helps identify assessor disagreements. Multi-criteria BCJ extends this by evaluating multiple learning outcomes (LOs) independently, preserving the richness of CJ while producing transparent, granular rankings aligned with specific assessment goals. It also enables a holistic ranking derived from individual LOs, ensuring comprehensive evaluations without compromising detailed feedback. Using a real higher education dataset with professional markers in the UK, we demonstrate BCJ's quantitative rigour and ability to clarify ranking rationales. Through qualitative analysis and discussions with experienced CJ practitioners, we explore its effectiveness in contexts where transparency is crucial, such as high-stakes national assessments. We highlight the benefits and limitations of BCJ, offering insights into its real-world application across various educational settings.
- Abstract(参考訳): 教育評価における透明性の確保は、特にパンデミック後において、より公平で信頼性の高い評価方法に対する需要が増大するにつれて、ますます重要になっている。
比較判断(CJ)は従来の評価に代わる有望な代替手段を提供するが、その不透明さに対する懸念は残る。
本稿では,ベイズ比較判断(BCJ)が事前情報を判断プロセスに統合し,解釈可能性と説明責任を向上させる構造化されたデータ駆動型アプローチを提供することにより透明性を高める方法について検討する。
BCJは結果の判断に確率を割り当て、不確実性の定量化と決定の信頼性に関する深い洞察を提供する。
事前データと連続した判断が最終ランキングにどのように影響するかを体系的に追跡することにより、BCJは評価プロセスを明確にし、評価者の不一致を特定するのに役立つ。
BCJは、複数の学習結果(LO)を独立して評価し、CJの豊かさを保ちながら、特定の評価目標に沿った透明で粒度の細かいランキングを生成することで、これを拡張している。
また、個々のLOから派生した総合的なランク付けを可能にし、詳細なフィードバックを損なうことなく包括的な評価を確実にする。
英国におけるプロのマーカーを用いた実際の高等教育データセットを用いて、BCJの量的厳密さと、ランキングの合理性を明らかにする能力を示す。
経験豊富なCJ実践者との質的分析と議論を通じて,高い評価基準などの透明性が不可欠である状況において,その有効性を検討する。
BCJの利点と限界を強調し、さまざまな教育環境にまたがって現実世界のアプリケーションに関する洞察を提供する。
関連論文リスト
- Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge [90.8674158031845]
提案するクラウド・ベース・コンピレーション・アセスメントは,提案するクラウド・レスポンスを,候補の応答と比較するための追加のクラウド・レスポンスを導入する。
このプロセスはLLM-as-a-Judgeを効果的に誘導し、より詳細なCoT判定を提供する。
提案手法は, 高い品質のCoTを製造し, 蒸留を判断し, 拒絶サンプリングにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-18T03:31:06Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Pessimistic Evaluation [58.736490198613154]
情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。
我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
論文 参考訳(メタデータ) (2024-10-17T15:40:09Z) - Multi-Facet Counterfactual Learning for Content Quality Evaluation [48.73583736357489]
コンテンツ品質評価の複数の側面を知覚する評価器を効率的に構築する枠組みを提案する。
我々は,コントラスト学習と教師付き学習に基づく共同学習戦略を活用し,評価者が異なる品質面を区別できるようにする。
論文 参考訳(メタデータ) (2024-10-10T08:04:10Z) - How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [12.542045913426639]
CheckEvalはチェックリストベースの評価フレームワークで、バイナリ質問を通じて評価信頼性を向上させる。
CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - Towards Explainability and Fairness in Swiss Judgement Prediction:
Benchmarking on a Multilingual Dataset [2.7463268699570134]
本研究は法定判断予測(LJP)モデルにおける説明可能性と公正性の領域を掘り下げるものである。
我々は,最先端モノリンガルおよび多言語BERTに基づくLJPモデルの説明可能性の評価を行った。
そこで我々は,下級裁判所情報の影響を定量的に予測できる新しい評価枠組みであるLCI(Lower Court Insertion)を導入する。
論文 参考訳(メタデータ) (2024-02-26T20:42:40Z) - Unveiling Bias in Fairness Evaluations of Large Language Models: A
Critical Literature Review of Music and Movie Recommendation Systems [0.0]
生成的人工知能の台頭、特にLarge Language Models (LLMs) は、正確性とともに公正性を精査する衝動を強めている。
近年,レコメンデーションなどの領域におけるLCMの公平性評価が研究されている。
しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。
論文 参考訳(メタデータ) (2024-01-08T17:57:29Z) - A Bayesian Active Learning Approach to Comparative Judgement [3.0098452499209705]
伝統的なマーキングは、不整合と無意識のバイアスの源であり、評価者に高い認知的負荷を課す。
CJでは、評価者には2つのアイテムが提示され、より良いものを選択するように求められます。
CJはマーキングの信頼できる方法と考えられているが、透明性に関する懸念がある。
比較項目のランクを決定するために,CJ (BCJ) に対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-25T10:33:44Z) - Non-Comparative Fairness for Human-Auditing and Its Relation to
Traditional Fairness Notions [1.8275108630751837]
本稿では,非比較正義の原理に基づく新たな公正概念を提案する。
比較公正性の観点から,任意のMLSを公平とみなすことができることを示す。
また、逆は個々人の公平さの文脈で真であることを示す。
論文 参考訳(メタデータ) (2021-06-29T20:05:22Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。