論文の概要: Towards Trustworthy AutoGrading of Short, Multi-lingual, Multi-type
Answers
- arxiv url: http://arxiv.org/abs/2201.03425v1
- Date: Sun, 2 Jan 2022 12:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-16 17:43:23.330438
- Title: Towards Trustworthy AutoGrading of Short, Multi-lingual, Multi-type
Answers
- Title(参考訳): 短時間多言語多型回答の信頼性向上に向けて
- Authors: Johannes Schneider and Robin Richner and Micha Riser
- Abstract要約: 本研究では、複数の言語から約1000万の質問応答対からなる大規模なデータセットを使用する。
本研究は, 自動的に評価された回答の精度を向上し, 指導助手の精度と同等の精度を実現する方法を示す。
- 参考スコア(独自算出の注目度): 2.2000998828262652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autograding short textual answers has become much more feasible due to the
rise of NLP and the increased availability of question-answer pairs brought
about by a shift to online education. Autograding performance is still inferior
to human grading. The statistical and black-box nature of state-of-the-art
machine learning models makes them untrustworthy, raising ethical concerns and
limiting their practical utility. Furthermore, the evaluation of autograding is
typically confined to small, monolingual datasets for a specific question type.
This study uses a large dataset consisting of about 10 million question-answer
pairs from multiple languages covering diverse fields such as math and
language, and strong variation in question and answer syntax. We demonstrate
the effectiveness of fine-tuning transformer models for autograding for such
complex datasets. Our best hyperparameter-tuned model yields an accuracy of
about 86.5\%, comparable to the state-of-the-art models that are less general
and more tuned to a specific type of question, subject, and language. More
importantly, we address trust and ethical concerns. By involving humans in the
autograding process, we show how to improve the accuracy of automatically
graded answers, achieving accuracy equivalent to that of teaching assistants.
We also show how teachers can effectively control the type of errors made by
the system and how they can validate efficiently that the autograder's
performance on individual exams is close to the expected performance.
- Abstract(参考訳): NLPの台頭やオンライン教育への移行に伴う質問応答ペアの増加により、短い文章による回答の自動化が実現可能になった。
オートグレーディングのパフォーマンスは、人間のグレーティングよりも劣っている。
最先端の機械学習モデルの統計的およびブラックボックスの性質は、それらを信頼できないものにし、倫理的懸念を高め、実用性を制限する。
さらに、オートグレーディングの評価は、通常、特定の質問タイプに対する小さな単言語データセットに限られる。
本研究は,数学や言語など多種多様な分野をカバーする複数の言語から約1000万の質問応答対からなる大規模データセットと,質問応答構文の強いバリエーションを用いた。
このような複雑なデータセットの自動分解における微調整変換器モデルの有効性を示す。
私たちの最高のハイパーパラメータチューニングモデルは、特定のタイプの質問、主題、言語に合わせてより一般的で調整された最先端モデルに匹敵する、約86.5\%の精度を与えます。
さらに重要なことは、信頼と倫理的な懸念に対処します。
自動採点プロセスに人間を関与させることで,自動採点結果の精度を向上させる方法を示し,指導助手と同等の精度を得る。
また,教師がシステムによるエラーの種類を効果的に制御し,個々の試験におけるオートグラファーのパフォーマンスが期待した性能に近いことを効果的に検証する方法を示す。
関連論文リスト
- Towards LLM-based Autograding for Short Textual Answers [4.853810201626855]
この写本は、自動階調のための大きな言語モデルの評価である。
のLCMは貴重なツールであるが、独立した自動グルーピングのための準備がまだ進行中であることを示唆している。
論文 参考訳(メタデータ) (2023-09-09T22:25:56Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Improving Performance of Automated Essay Scoring by using
back-translation essays and adjusted scores [0.0]
バックトランスレーションとスコア調整を用いたエッセイスコアペア数を増やす手法を提案する。
先行作業から得られたモデルを用いて,拡張データの有効性を評価する。
モデルをトレーニングするために拡張データを使用することで、モデルの性能が向上した。
論文 参考訳(メタデータ) (2022-03-01T11:05:43Z) - Cheating Automatic Short Answer Grading: On the Adversarial Usage of
Adjectives and Adverbs [0.0]
我々は,学習用短解格付けシナリオに合わせたブラックボックス逆行攻撃を考案し,評価モデルの堅牢性について検討した。
最先端モデルBERTとT5を用いて,10~22ポイントの予測精度の低下を観測した。
本実験では,自動階調システムをより安全に活用するための推奨事項について述べる。
論文 参考訳(メタデータ) (2022-01-20T17:34:33Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - The World is Not Binary: Learning to Rank with Grayscale Data for
Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。
本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。
3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文 参考訳(メタデータ) (2020-04-06T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。