Fugu-MT 論文翻訳(概要): AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment

論文の概要: AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment

arxiv url: http://arxiv.org/abs/2410.09507v1
Date: Sat, 12 Oct 2024 11:57:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 14:04:51.735807
Title: AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment
Title（参考訳）: AERA Chat: 説明可能な学生回答自動評価のためのインタラクティブプラットフォーム
Authors: Jiazheng Li, Artem Bobrov, David West, Cesare Aloisi, Yulan He,
Abstract要約: AERA Chatは、学生の回答の視覚的に説明された評価を提供するインタラクティブなプラットフォームである。ユーザーは質問や学生の回答を入力して、大規模言語モデルから自動で説明可能な評価結果を得ることができる。
参考スコア（独自算出の注目度）: 12.970776782360366
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Generating rationales that justify scoring decisions has emerged as a promising approach to enhance explainability in the development of automated scoring systems. However, the scarcity of publicly available rationale data and the high cost of annotation have resulted in existing methods typically relying on noisy rationales generated by large language models (LLMs). To address these challenges, we have developed AERA Chat, an interactive platform, to provide visually explained assessment of student answers and streamline the verification of rationales. Users can input questions and student answers to obtain automated, explainable assessment results from LLMs. The platform's innovative visualization features and robust evaluation tools make it useful for educators to assist their marking process, and for researchers to evaluate assessment performance and quality of rationales generated by different LLMs, or as a tool for efficient annotation. We evaluated three rationale generation approaches on our platform to demonstrate its capability.
Abstract（参考訳）: スコアリング決定を正当化する合理性を生成することは、自動スコアリングシステムの開発における説明可能性を高めるための有望なアプローチとして現れている。しかし、公開されている有理数データの不足と注釈のコストの高騰により、既存の手法は大きな言語モデル(LLM)によって生成されるノイズの多い有理数に依存している。これらの課題に対処するため,対話型プラットフォームであるAERA Chatを開発した。ユーザは質問や学生の回答を入力して、LLMから自動で説明可能な評価結果を得ることができる。このプラットフォームの革新的な視覚化機能と堅牢な評価ツールは、教育者がマーキングプロセスを支援するのに役立ち、研究者が異なるLLMによって生成された合理性の評価と品質を評価するのに役立ちます。我々は、その能力を示すために、プラットフォーム上で3つの合理的な生成アプローチを評価した。

関連論文リスト

AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文参考訳（メタデータ） (2025-02-24T07:02:31Z)
Transforming Student Evaluation with Adaptive Intelligence and Performance Analytics [0.0]
本稿では,人工知能を用いた学生のパフォーマンス評価システムについて述べる。システムには、複数の選択、短い回答、記述的な質問を含む質問の形式がある。プラットフォームにはインテリジェントな学習の進歩があり、ユーザーは特定のレベルのパフォーマンスを推奨するために自分のパフォーマンスを監視できる。
論文参考訳（メタデータ） (2025-02-07T18:57:51Z)
Human-Centered Design for AI-based Automatically Generated Assessment Reports: A Systematic Review [4.974197456441281]
本研究は,ユーザ中心・直感的デザインによる教師の認知的要求を減らすことの重要性を強調した。テキスト、視覚支援、プロットなどの多様な情報提示フォーマットや、ユーザビリティを高めるためのライブやインタラクティブ機能などの高度な機能の可能性を強調します。このフレームワークは、教師が技術強化された評価結果に取り組み、データ駆動による意思決定を容易にし、教育と学習プロセスを改善するためのパーソナライズされたフィードバックを提供することの課題に対処することを目的としている。
論文参考訳（メタデータ） (2024-12-30T16:20:07Z)
An Automated Explainable Educational Assessment System Built on LLMs [12.970776782360366]
AERA Chatは、学生の反応をインタラクティブかつ視覚的に評価するための自動教育アセスメントシステムである。本システムでは,ユーザが質問や学生の回答を入力し,評価精度に関する洞察を教育者や研究者に提供する。
論文参考訳（メタデータ） (2024-12-17T23:29:18Z)
Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses [0.0]
本研究では,大規模言語モデル(LLM)が数学教育における自動フィードバックを促進する可能性を探究することを目的とする。我々は,Llamaの数学版であるMistralを採用し,このモデルを用いて,中学校数学問題に対する生徒の回答と教師によるフィードバックのデータセットを活用することによって,学生の反応を評価する。 2人の教師の判断を生かして,評価精度とフィードバックの質を評価する。
論文参考訳（メタデータ） (2024-10-29T16:57:45Z)
An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文参考訳（メタデータ） (2024-10-16T06:06:06Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文参考訳（メタデータ） (2023-12-10T23:13:23Z)
Digital Socrates: Evaluating LLMs through Explanation Critiques [37.25959112212333]
Digital Socratesは、モデル説明のためのオープンソースの自動批評モデルである。我々は,デジタルソクラテスが学生モデルについての洞察を明らかにするのにどのように役立つかを示す。
論文参考訳（メタデータ） (2023-11-16T06:51:46Z)
Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文参考訳（メタデータ） (2023-09-15T02:42:03Z)
Distilling ChatGPT for Explainable Automated Student Answer Assessment [19.604476650824516]
本稿では,最先端の大規模言語モデルであるChatGPTを用いて,学生の回答スコアリングと合理性生成の同時タスクを探索する新しいフレームワークを提案する。提案手法は,ChatGPTと比較してQWK全体のスコアを11%改善することを示した。
論文参考訳（メタデータ） (2023-05-22T12:11:39Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文参考訳（メタデータ） (2022-09-07T10:09:12Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。