論文の概要: Hybrid Instructor Ai Assessment In Academic Projects: Efficiency, Equity, And Methodological Lessons
- arxiv url: http://arxiv.org/abs/2510.22286v1
- Date: Sat, 25 Oct 2025 13:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.022357
- Title: Hybrid Instructor Ai Assessment In Academic Projects: Efficiency, Equity, And Methodological Lessons
- Title(参考訳): 学術プロジェクトにおけるハイブリッドインストラクタAi評価--効率性,エクイティ,方法論的教訓
- Authors: Hugo Roger Paz,
- Abstract要約: 本研究では, インストラクターが指導する生成型人工知能(AI)による評価システムの実装について, 33 段階の油圧レポートに適用した。
その結果,88%の低下,733%の生産性向上がみられた。
システムは等しく、報告の長さに偏りがなく、信頼性の高い校正後であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In technical subjects characterized by high enrollment, such as Basic Hydraulics, the assessment of reports necessitates superior levels of objectivity, consistency, and formative feedback; goals often compromised by faculty workload. This study presents the implementation of a generative artificial intelligence (AI) assisted assessment system, supervised by instructors, to grade 33 hydraulics reports. The central objective was to quantify its impact on the efficiency, quality, and fairness of the process. The employed methodology included the calibration of the Large Language Model (LLM) with a detailed rubric, the batch processing of assignments, and a human-in-the-loop validation phase. The quantitative results revealed a noteworthy 88% reduction in grading time (from 50 to 6 minutes per report, including verification) and a 733% increase in productivity. The quality of feedback was substantially improved, evidenced by 100% rubric coverage and a 150% increase in the anchoring of comments to textual evidence. The system proved to be equitable, exhibiting no bias related to report length, and highly reliable post-calibration (r = 0.96 between scores). It is concluded that the hybrid AI-instructor model optimizes the assessment process, thereby liberating time for high-value pedagogical tasks and enhancing the fairness and quality of feedback, in alignment with UNESCO's principles on the ethical use of AI in education.
- Abstract(参考訳): 基礎水理学のような高い入学率を特徴とする技術分野において、報告書の評価は客観性、一貫性、形式的フィードバックの優れたレベルを必要とする。
本研究では, インストラクターが指導する生成型人工知能(AI)による評価システムの実装について, 33 段階の油圧レポートに適用した。
中心的な目的は、そのプロセスの効率、品質、公平性への影響を定量化することであった。
採用された手法には、詳細なルーリックによるLarge Language Model (LLM)の校正、代入のバッチ処理、ヒューマン・イン・ザ・ループの検証フェーズが含まれていた。
定量的結果によると、グレーティング時間(検証を含む1レポートあたり50~6分)が88%減少し、生産性が733%向上した。
フィードバックの質は大幅に改善され、100%ルーブリックのカバレッジが証明され、文章による証拠に対するコメントのアンカーが150%増加した。
システムは等しく、レポートの長さに偏りはなく、信頼性の高いポスト校正(スコア間のr = 0.96)を示した。
ハイブリッドAI-インストラクタモデルは、評価プロセスを最適化し、教育におけるAIの倫理的利用に関するユネスコの原則に則って、高価値な教育タスクの時間を解放し、フィードバックの公平性と品質を高めると結論付けている。
関連論文リスト
- Teaching at Scale: Leveraging AI to Evaluate and Elevate Engineering Education [3.557803321422781]
本稿では,大規模言語モデルを用いた定性的な学生フィードバックのためのスケーラブルなAI支援フレームワークを提案する。
このシステムは階層的な要約、匿名化、例外処理を用いて、オープンなコメントから実行可能なテーマを抽出する。
大規模な工学系大学への展開が成功したことを報告します。
論文 参考訳(メタデータ) (2025-08-01T20:27:40Z) - Findings of the BEA 2025 Shared Task on Pedagogical Ability Assessment of AI-powered Tutors [6.891852148875869]
このタスクは、AIチューターのパフォーマンスを、誤識別の重要な次元にわたって自動的に評価するように設計された5つのトラックで構成されている。
4つの教育能力評価トラックの最良の結果は、マクロF1スコア58.34(ガイダンス提供)と3クラスの問題に対する71.81(誤識別)の範囲である。
論文 参考訳(メタデータ) (2025-07-11T10:57:36Z) - Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。
局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。
最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T16:39:41Z) - Evaluating the Performance of Nigerian Lecturers using Multilayer Perceptron [0.0]
このシステムは、Webベースのプラットフォームを使用して設計され、セキュアなデータベースを作成し、カスタムデータセットを使用していた。
モデルの性能は平均二乗誤差(MSE)と平均絶対誤差(MAE)を用いて評価した。
また,約96%の精度を推定し,講師のパフォーマンス予測の有効性を検証した。
論文 参考訳(メタデータ) (2025-05-22T07:23:14Z) - J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。
私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。
次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2025-05-15T14:05:15Z) - A Zero-Shot LLM Framework for Automatic Assignment Grading in Higher Education [0.6141800972050401]
ゼロショット大言語モデル(LLM)に基づく自動アサインメントグレーディング(AAG)システムを提案する。
このフレームワークはプロンプトエンジニアリングを利用して、追加のトレーニングや微調整を必要とせず、計算と説明の両方の学生の反応を評価する。
AAGシステムは、個々の強みと改善の領域を強調した調整されたフィードバックを提供し、それによって学生の学習結果を向上する。
論文 参考訳(メタデータ) (2025-01-24T08:01:41Z) - "I understand why I got this grade": Automatic Short Answer Grading with Feedback [33.63970664152288]
本稿では,フィードバックによる短時間回答自動グルーピングのためのデータセットであるEngineering Short Answer Feedback (EngSAF)を紹介する。
我々は,我々のラベル認識合成フィードバック生成(LASFG)戦略を用いて,最先端の大規模言語モデル(LLM)の生成能力を活用することで,データセットにフィードバックを組み込む。
最高のパフォーマンスモデル(Mistral-7B)は、それぞれ75.4%と58.7%の精度で、未確認の回答と未確認の質問テストセットで達成している。
論文 参考訳(メタデータ) (2024-06-30T15:42:18Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。