論文の概要: AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment
- arxiv url: http://arxiv.org/abs/2410.09507v2
- Date: Sun, 28 Sep 2025 20:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.713915
- Title: AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment
- Title(参考訳): AERA Chat: 説明可能な学生回答自動評価のためのインタラクティブプラットフォーム
- Authors: Jiazheng Li, Artem Bobrov, Runcong Zhao, Cesare Aloisi, Yulan He,
- Abstract要約: AERA Chatは、生徒の回答の自動評価のために設計されたインタラクティブな視覚化プラットフォームである。
AERA Chatは複数の言語モデル(LLM)を活用して、生徒の回答を同時にスコアし、説明的合理性を生成する。
複数のデータセットに対する複数の合理的生成手法の評価を通じて,プラットフォームの有効性を実証する。
- 参考スコア(独自算出の注目度): 15.969280805269976
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Explainability in automated student answer scoring systems is critical for building trust and enhancing usability among educators. Yet, generating high-quality assessment rationales remains challenging due to the scarcity of annotated data and the prohibitive cost of manual verification, prompting heavy reliance on rationales produced by large language models (LLMs), which are often noisy and unreliable. To address these limitations, we present AERA Chat, an interactive visualization platform designed for automated explainable student answer assessment. AERA Chat leverages multiple LLMs to concurrently score student answers and generate explanatory rationales, offering innovative visualization features that highlight critical answer components and rationale justifications. The platform also incorporates intuitive annotation and evaluation tools, supporting educators in marking tasks and researchers in evaluating rationale quality from different models. We demonstrate the effectiveness of our platform through evaluations of multiple rationale-generation methods on several datasets, showcasing its capability for facilitating robust rationale evaluation and comparative analysis.
- Abstract(参考訳): 自動回答スコアリングシステムの説明可能性は,教育者間の信頼構築とユーザビリティ向上に不可欠である。
しかし、注釈付きデータの不足や手作業による検証の禁止により、大きな言語モデル(LLM)が生み出す有理性に大きく依存するなど、高品質なアセスメントの合理性の生成は依然として困難なままである。
これらの制約に対処するため,AERA Chatは,生徒の回答自動評価のために設計された対話型可視化プラットフォームである。
AERA Chat は複数の LLM を活用して,生徒の回答を同時にスコアし,説明的合理性を生成する。
プラットフォームには直感的なアノテーションと評価ツールが含まれており、さまざまなモデルから合理的な品質を評価するために、タスクや研究者をマークする教育者をサポートする。
我々は,複数のデータセット上で複数の合理的生成手法の評価を行い,ロバストな合理的評価と比較分析を容易にする能力を示すことによって,プラットフォームの有効性を実証する。
関連論文リスト
- AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。
提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文 参考訳(メタデータ) (2025-02-24T07:02:31Z) - Transforming Student Evaluation with Adaptive Intelligence and Performance Analytics [0.0]
本稿では,人工知能を用いた学生のパフォーマンス評価システムについて述べる。
システムには、複数の選択、短い回答、記述的な質問を含む質問の形式がある。
プラットフォームにはインテリジェントな学習の進歩があり、ユーザーは特定のレベルのパフォーマンスを推奨するために自分のパフォーマンスを監視できる。
論文 参考訳(メタデータ) (2025-02-07T18:57:51Z) - Human-Centered Design for AI-based Automatically Generated Assessment Reports: A Systematic Review [4.974197456441281]
本研究は,ユーザ中心・直感的デザインによる教師の認知的要求を減らすことの重要性を強調した。
テキスト、視覚支援、プロットなどの多様な情報提示フォーマットや、ユーザビリティを高めるためのライブやインタラクティブ機能などの高度な機能の可能性を強調します。
このフレームワークは、教師が技術強化された評価結果に取り組み、データ駆動による意思決定を容易にし、教育と学習プロセスを改善するためのパーソナライズされたフィードバックを提供することの課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-12-30T16:20:07Z) - An Automated Explainable Educational Assessment System Built on LLMs [12.970776782360366]
AERA Chatは、学生の反応をインタラクティブかつ視覚的に評価するための自動教育アセスメントシステムである。
本システムでは,ユーザが質問や学生の回答を入力し,評価精度に関する洞察を教育者や研究者に提供する。
論文 参考訳(メタデータ) (2024-12-17T23:29:18Z) - Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses [0.0]
本研究では,大規模言語モデル(LLM)が数学教育における自動フィードバックを促進する可能性を探究することを目的とする。
我々は,Llamaの数学版であるMistralを採用し,このモデルを用いて,中学校数学問題に対する生徒の回答と教師によるフィードバックのデータセットを活用することによって,学生の反応を評価する。
2人の教師の判断を生かして,評価精度とフィードバックの質を評価する。
論文 参考訳(メタデータ) (2024-10-29T16:57:45Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Digital Socrates: Evaluating LLMs through Explanation Critiques [37.25959112212333]
Digital Socratesは、モデル説明のためのオープンソースの自動批評モデルである。
我々は,デジタルソクラテスが学生モデルについての洞察を明らかにするのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-11-16T06:51:46Z) - Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。
このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。
各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文 参考訳(メタデータ) (2023-09-15T02:42:03Z) - Distilling ChatGPT for Explainable Automated Student Answer Assessment [19.604476650824516]
本稿では,最先端の大規模言語モデルであるChatGPTを用いて,学生の回答スコアリングと合理性生成の同時タスクを探索する新しいフレームワークを提案する。
提案手法は,ChatGPTと比較してQWK全体のスコアを11%改善することを示した。
論文 参考訳(メタデータ) (2023-05-22T12:11:39Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。