論文の概要: Finetuning Transformer Models to Build ASAG System
- arxiv url: http://arxiv.org/abs/2109.12300v1
- Date: Sat, 25 Sep 2021 07:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 13:14:32.555475
- Title: Finetuning Transformer Models to Build ASAG System
- Title(参考訳): ASAGシステム構築のための微細トランスモデル
- Authors: Mithun Thakkar
- Abstract要約: この研究の目的はMLベースの短解階調システムを開発することである。
私はSTSベンチマークデータセットに事前トレーニングされたRoberta Large Modelの微調整を利用するシステムを構築しました。
システムの性能をMohler拡張データセットとSciEntsBankデータセットで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research towards creating systems for automatic grading of student answers to
quiz and exam questions in educational settings has been ongoing since 1966.
Over the years, the problem was divided into many categories. Among them,
grading text answers were divided into short answer grading, and essay grading.
The goal of this work was to develop an ML-based short answer grading system. I
hence built a system which uses finetuning on Roberta Large Model pretrained on
STS benchmark dataset and have also created an interface to show the production
readiness of the system. I evaluated the performance of the system on the
Mohler extended dataset and SciEntsBank Dataset. The developed system achieved
a Pearsons Correlation of 0.82 and RMSE of 0.7 on the Mohler Dataset which
beats the SOTA performance on this dataset which is correlation of 0.805 and
RMSE of 0.793. Additionally, Pearsons Correlation of 0.79 and RMSE of 0.56 was
achieved on the SciEntsBank Dataset, which only reconfirms the robustness of
the system. A few observations during achieving these results included usage of
batch size of 1 produced better results than using batch size of 16 or 32 and
using huber loss as loss function performed well on this regression task. The
system was tried and tested on train and validation splits using various random
seeds and still has been tweaked to achieve a minimum of 0.76 of correlation
and a maximum 0.15 (out of 1) RMSE on any dataset.
- Abstract(参考訳): 学習環境におけるクイズに対する学生回答の自動評価システムの構築に関する研究は,1966年から行われている。
長年にわたり、問題は様々なカテゴリーに分けられた。
そのうち,文章の解答は,短答の採点と随筆の採点に分けられた。
この研究の目的はMLベースの短解階調システムを開発することである。
そこで私は、stsベンチマークデータセットで事前トレーニングされたroberta large modelの微調整を使用するシステムを構築し、システムの運用準備状況を示すインターフェースも作成しました。
モーラー拡張データセットとSciEntsBank Datasetでシステムの性能を評価した。
開発したシステムは,0.82,rmse 0.7のピアソンズ相関をmohlerデータセット上で達成し,0.805,rmse 0.793の相関であるこのデータセットのsota性能を上回った。
さらに、ピアソンズ相関の0.79とRMSEの0.56は、システムの堅牢性を再確認するSciEntsBank Datasetで達成された。
これらの結果を達成する過程において、バッチサイズ1の使用は、16または32のバッチサイズよりも優れた結果をもたらし、この回帰タスクでよく機能する損失関数としてフーバーロスを使用した。
このシステムは、様々なランダムな種を使って列車と検証用の分割でテストされ、それでも、あらゆるデータセットで最大0.76の相関と最大0.15 (out of 1) rmseを達成するために調整されている。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Comparing Hyper-optimized Machine Learning Models for Predicting Efficiency Degradation in Organic Solar Cells [39.847063110051245]
本研究は,有機太陽電池 (OSC) の電力変換効率 (PCE) に苦しむ時間的劣化を表現するための機械学習モデルを提案する。
製造プロセスと環境条件の両方に関して最大7変数を含む996項目のデータベースを180日間以上作成しました。
一方、根平均二乗誤差(RMSE)、二乗誤差(SSE)の和、および平均絶対誤差(MAE)>1%の目標値であるPCEは、係数決定(R2)の値に達した。
論文 参考訳(メタデータ) (2024-03-29T22:05:26Z) - FedCSD: A Federated Learning Based Approach for Code-Smell Detection [7.026278088747708]
本稿では,MLモデルの協調学習を可能にするフェデレートラーニングコードスメル検出手法を提案する。
3つの実験では、異なるコードの臭いのシナリオを検出し、調査することを目的とした、手動で検証された3つのデータセットを活用している。
98.34%の精度は、100回のトレーニングラウンドで10社でトレーニングされたグローバルモデルによって達成された。
論文 参考訳(メタデータ) (2023-05-31T09:51:45Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - AutoDO: Robust AutoAugment for Biased Data with Label Noise via Scalable
Probabilistic Implicit Differentiation [3.118384520557952]
AutoAugmentはディープラーニングモデルに対する自動拡張手法への関心を呼び起こした。
バイアスデータやノイズデータに適用した場合,これらの手法は堅牢ではないことを示す。
AutoAugmentを汎用的な自動データセット最適化(AutoDO)タスクとして再構成します。
従来の手法と比較して,ラベルノイズのあるバイアス付きデータセットは最大9.3%改善した。
論文 参考訳(メタデータ) (2021-03-10T04:05:33Z) - QMUL-SDS @ SardiStance: Leveraging Network Interactions to Boost
Performance on Stance Detection using Knowledge Graphs [16.39344929765961]
本稿では,タスクAとタスクBのアーキテクチャについて述べる。
タスクBでは6位(f-avg 0.709)です。
最適実験により, (f-avg 0.573) から (f-avg 0.733) まで性能が向上した。
論文 参考訳(メタデータ) (2020-11-02T18:17:51Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Neural Network-Based Collaborative Filtering for Question Sequencing [0.3655021726150368]
我々はニューラルコラボレーティブ・フィルタリング(NCF)モデルを用いて質問シークエンシングを生成する。
ペアワイズメモリベースの質問シークエンシングアルゴリズムであるEduRankと比較する。
NCFモデルでは,平均相関スコア0.85のEduRankモデルよりも格付けが有意に向上した。
論文 参考訳(メタデータ) (2020-04-25T19:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。