論文の概要: Auditing an Automatic Grading Model with deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.07087v1
- Date: Sat, 11 May 2024 20:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 18:32:45.666356
- Title: Auditing an Automatic Grading Model with deep Reinforcement Learning
- Title(参考訳): 深層強化学習による自動格子モデルの検討
- Authors: Aubrey Condor, Zachary Pardos,
- Abstract要約: 自動短解格付け(ASAG)モデルに対する深層強化学習の活用について検討する。
人間の評価に対する高いレベルの合意は、ASAGモデルが誤りであることを示す十分な証拠を与えていないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the use of deep reinforcement learning to audit an automatic short answer grading (ASAG) model. Automatic grading may decrease the time burden of rating open-ended items for educators, but a lack of robust evaluation methods for these models can result in uncertainty of their quality. Current state-of-the-art ASAG models are configured to match human ratings from a training set, and researchers typically assess their quality with accuracy metrics that signify agreement between model and human scores. In this paper, we show that a high level of agreement to human ratings does not give sufficient evidence that an ASAG model is infallible. We train a reinforcement learning agent to revise student responses with the objective of achieving a high rating from an automatic grading model in the least number of revisions. By analyzing the agent's revised responses that achieve a high grade from the ASAG model but would not be considered a high scoring responses according to a scoring rubric, we discover ways in which the automated grader can be exploited, exposing shortcomings in the grading model.
- Abstract(参考訳): 自動短解格付け(ASAG)モデルに対する深層強化学習の活用について検討する。
自動格付けは、教育者に対する評価対象項目の格付けに要する時間的負担を減少させる可能性があるが、これらのモデルに対する堅牢な評価方法の欠如は、それらの品質の不確実性をもたらす可能性がある。
現在の最先端のASAGモデルは、トレーニングセットからの人間の評価と一致するように構成されており、研究者は通常、モデルと人間のスコアの一致を示す精度の指標で品質を評価する。
本稿では,人間格付けに対する高レベルの合意が,ASAGモデルが誤りであることを示す十分な証拠を与えていないことを示す。
強化学習エージェントを訓練し、最小限のリビジョンにおいて、自動階調モデルから高い評価を得ることを目的として、学生の反応を改訂する。
また,ASAGモデルから高い評価を得られるが,スコアリングルーリックに従って高い評価応答とはみなされないエージェントの修正応答を解析することにより,自動グルーパーを活用できる方法を発見し,グレーティングモデルに欠点を露呈する。
関連論文リスト
- Auto-Evaluation with Few Labels through Post-hoc Regression [4.813376208491175]
予測パワー推論(PPI)フレームワークは、自動評価の統計的パワーとラベル付きデータの小さなプールを活用する方法を提供する。
本稿では, 頑健な回帰器を用いたPPIに基づく2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-19T17:17:46Z) - Self-Judge: Selective Instruction Following with Alignment Self-Evaluation [27.69410513313001]
提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。
人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
論文 参考訳(メタデータ) (2024-09-02T04:14:13Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。