論文の概要: Ratas framework: A comprehensive genai-based approach to rubric-based marking of real-world textual exams
- arxiv url: http://arxiv.org/abs/2505.23818v1
- Date: Tue, 27 May 2025 22:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.5346
- Title: Ratas framework: A comprehensive genai-based approach to rubric-based marking of real-world textual exams
- Title(参考訳): ラタスフレームワーク:現実世界のテキスト検定の粗悪なマーキングに対する包括的ジェニーに基づくアプローチ
- Authors: Masoud Safilian, Amin Beheshti, Stephen Elbourn,
- Abstract要約: RATAS(Rubric Automated Tree-based Answer Scoring)は、テキスト応答のルーリックベースのグレーディングに最先端の生成AIモデルを活用する新しいフレームワークである。
RATASは、幅広いグレーディングルーリックをサポートし、主観的評価を可能にし、割り当てられたスコアに対して構造化された説明可能な論理を生成するように設計されている。
- 参考スコア(独自算出の注目度): 3.4132239125074206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated answer grading is a critical challenge in educational technology, with the potential to streamline assessment processes, ensure grading consistency, and provide timely feedback to students. However, existing approaches are often constrained to specific exam formats, lack interpretability in score assignment, and struggle with real-world applicability across diverse subjects and assessment types. To address these limitations, we introduce RATAS (Rubric Automated Tree-based Answer Scoring), a novel framework that leverages state-of-the-art generative AI models for rubric-based grading of textual responses. RATAS is designed to support a wide range of grading rubrics, enable subject-agnostic evaluation, and generate structured, explainable rationales for assigned scores. We formalize the automatic grading task through a mathematical framework tailored to rubric-based assessment and present an architecture capable of handling complex, real-world exam structures. To rigorously evaluate our approach, we construct a unique, contextualized dataset derived from real-world project-based courses, encompassing diverse response formats and varying levels of complexity. Empirical results demonstrate that RATAS achieves high reliability and accuracy in automated grading while providing interpretable feedback that enhances transparency for both students and nstructors.
- Abstract(参考訳): 自動回答グレーディングは、評価プロセスの合理化、グレーディング一貫性の確保、学生へのタイムリーなフィードバックなど、教育技術における重要な課題である。
しかし、既存のアプローチは、特定の試験形式に制約されることが多く、スコアの割り当ての解釈可能性に欠け、様々な主題や評価タイプにまたがる現実的な適用性に苦慮している。
これらの制限に対処するため、RATAS(Rubric Automated Tree-based Answer Scoring)を導入する。
RATASは、幅広いグレーディングルーリックをサポートし、主観的評価を可能にし、割り当てられたスコアに対して構造化された説明可能な論理を生成するように設計されている。
本稿では,ルーブリックに基づく評価に適合した数学的枠組みを用いて自動階調タスクを定式化し,複雑な実世界の試験構造を扱えるアーキテクチャを提案する。
提案手法を厳格に評価するために,実世界のプロジェクトベースコースから派生した,多様な応答形式とさまざまな複雑さのレベルを包含した,ユニークなコンテキスト化されたデータセットを構築した。
実験の結果、RATASは自動階調において高い信頼性と精度を達成し、学生と教師の透明性を高めるための解釈可能なフィードバックを提供することがわかった。
関連論文リスト
- Benchmarking and Rethinking Knowledge Editing for Large Language Models [34.80161437154527]
知識編集は,Large Language Models (LLM)内での組み込み知識の更新を目的としている。
パラメータ修正や外部メモリ統合といった既存のアプローチは、しばしば不整合評価目標や実験的な設定に悩まされる。
本研究は、現在の知識編集手法の限界に対する新たな洞察を提供し、より堅牢な代替手段としてコンテキストベースの推論の可能性を強調する。
論文 参考訳(メタデータ) (2025-05-24T13:32:03Z) - StepGrade: Grading Programming Assignments with Context-Aware LLMs [0.6725011823614421]
本研究は,大規模言語モデル(LLM)を駆使したChain-of-Thought(CoT)の利用を探求するStepGradeを紹介する。
限定的および表面レベルの出力を提供する通常のプロンプトとは異なり、CoTプロンプトは相互接続されたグレーティング基準をステップバイステップで推論することを可能にする。
StepGradeの効率を実証的に検証するため,3つの難易度にまたがる30のPythonプログラムをケーススタディとして実施した。
論文 参考訳(メタデータ) (2025-03-26T17:36:26Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment [12.970776782360366]
AERA Chatは、学生の回答の視覚的に説明された評価を提供するインタラクティブなプラットフォームである。
ユーザーは質問や学生の回答を入力して、大規模言語モデルから自動で説明可能な評価結果を得ることができる。
論文 参考訳(メタデータ) (2024-10-12T11:57:53Z) - "I understand why I got this grade": Automatic Short Answer Grading with Feedback [36.74896284581596]
本稿では,5.8kの学生回答と参照回答と自動短解答(ASAG)タスクに対する質問のデータセットを提案する。
EngSAFデータセットは、複数のエンジニアリングドメインのさまざまな主題、質問、回答パターンをカバーするために、慎重にキュレートされている。
論文 参考訳(メタデータ) (2024-06-30T15:42:18Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。