論文の概要: Using language models in the implicit automated assessment of
mathematical short answer items
- arxiv url: http://arxiv.org/abs/2308.11006v1
- Date: Mon, 21 Aug 2023 19:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:57:18.982994
- Title: Using language models in the implicit automated assessment of
mathematical short answer items
- Title(参考訳): 数学的短解項目の自動評価における言語モデルの利用
- Authors: Christopher Ormerod
- Abstract要約: そこで本研究では,数学項目に対する短時間で構築された応答を評価できる新しい手法を提案する。
このアプローチでは、学生が応答で指定したキー値を特定するパイプラインを使用します。
次に、バリュー識別パイプラインからの情報を使用して、教師と学生にフィードバックを提供することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a new way to assess certain short constructed responses to
mathematics items. Our approach uses a pipeline that identifies the key values
specified by the student in their response. This allows us to determine the
correctness of the response, as well as identify any misconceptions. The
information from the value identification pipeline can then be used to provide
feedback to the teacher and student. The value identification pipeline consists
of two fine-tuned language models. The first model determines if a value is
implicit in the student response. The second model identifies where in the
response the key value is specified. We consider both a generic model that can
be used for any prompt and value, as well as models that are specific to each
prompt and value. The value identification pipeline is a more accurate and
informative way to assess short constructed responses than traditional
rubric-based scoring. It can be used to provide more targeted feedback to
students, which can help them improve their understanding of mathematics.
- Abstract(参考訳): 本稿では,数学項目に対する短い構成応答を評価する新しい方法を提案する。
このアプローチでは、学生が応答で指定したキーバリューを識別するパイプラインを使用する。
これにより、反応の正しさを判断し、誤解を識別することができます。
価値識別パイプラインからの情報は、教師と生徒にフィードバックを提供するために使用できる。
値識別パイプラインは2つの微調整言語モデルで構成される。
最初のモデルは、学生の反応で値が暗黙的かどうかを判断する。
第2のモデルは、応答中のキー値が指定された場所を特定する。
我々は、任意のプロンプトと値に使用できるジェネリックモデルと、それぞれのプロンプトと値に固有のモデルの両方を考慮する。
値識別パイプラインは、従来のルーリックベースのスコアリングよりも、短い構築された応答を評価するための正確で情報的な方法である。
学生にもっとターゲティングなフィードバックを提供するために利用することができ、数学の理解を改善するのに役立ちます。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。
提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。
その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Do Smaller Language Models Answer Contextualised Questions Through
Memorisation Or Generalisation? [8.51696622847778]
モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、しばしば区別される。
本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T04:06:08Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Saliency Map Verbalization: Comparing Feature Importance Representations
from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。
我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。
本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文 参考訳(メタデータ) (2022-10-13T17:48:15Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Pointwise Paraphrase Appraisal is Potentially Problematic [21.06607915149245]
本研究では,2つの文を1つのシーケンスでペア化することにより,文のパラフレーズ識別のための細調整BERTの標準的な手法が,最先端性能のモデルとなることを示す。
また、これらのモデルでは、一対の同一文よりも高いパラフレーズスコアを持つランダム選択文を予測できることを示した。
論文 参考訳(メタデータ) (2020-05-25T09:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。