論文の概要: Using GPT-4 to Augment Unbalanced Data for Automatic Scoring
- arxiv url: http://arxiv.org/abs/2310.18365v2
- Date: Sat, 18 Nov 2023 02:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 17:08:34.217029
- Title: Using GPT-4 to Augment Unbalanced Data for Automatic Scoring
- Title(参考訳): GPT-4を用いた自動スコーリングのためのアンバランスデータの拡張
- Authors: Luyang Fang, Gyeong-Geon Lee and Xiaoming Zhai
- Abstract要約: 生成型大規模言語モデルであるGPT-4を用いた新しいテキストデータ拡張フレームワークを提案する。
我々は,GPT-4が学生の回答に類似した応答を生成するためのプロンプトを作成し,特にマイノリティスコアリングクラスについて検討した。
拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
- 参考スコア(独自算出の注目度): 0.6278186810520364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning-based automatic scoring can be challenging if students'
responses are unbalanced across scoring categories, as it introduces
uncertainty in the machine training process. To meet this challenge, we
introduce a novel text data augmentation framework using GPT-4, a generative
large language model, specifically tailored for unbalanced datasets in
automatic scoring. Our experimental dataset comprised student-written responses
to two science items. We crafted prompts for GPT-4 to generate responses
resembling student-written answers, particularly for the minority scoring
classes, to augment the data. We then finetuned DistillBERT for automatic
scoring based on the augmented and original datasets. Model performance was
assessed using accuracy, precision, recall, and F1 score. We incorporate varied
amounts of augmented data to examine scoring performance, and our findings
revealed remarkedly improved model performance. The average maximum increase
observed across two items is: 3.5% for accuracy, 30.6% for precision, 21.1% for
recall, and 24.2% for F1 score. Notably, using just 5% of the augmented data
led to substantial improvements: 2.6%, 29.2%, 15.1%, and 19.6%. Interestingly,
the extent of improvement varied depending on specific datasets. Moreover, we
found that a varying amount of augmented data (5%-40%) was needed to obtain a
stable improvement. We also compare models trained with GPT-4 augmented data
and those trained with additional student-written responses. The findings
indicate that former ones match or even exceed the performance of the latter.
Specifically, there is an average difference of 1.7%, 1.9%, 11.0%, and 7.8% for
four metrics separately. This research underscores the potential and
effectiveness of data augmentation techniques utilizing GPT-4 in addressing
unbalanced datasets within automated assessment.
- Abstract(参考訳): 機械学習に基づく自動スコアリングは, 学習過程における不確実性を導入するため, スコアリングカテゴリー間で学生の反応が不均衡である場合, 課題となる。
この課題を克服するために,自動スコアリングにおける不均衡データセット用に特別に調整された生成型大規模言語モデルgpt-4を用いた新しいテキストデータ拡張フレームワークを提案する。
実験データセットは2つの科学項目に対する学生による回答からなる。
我々は、GPT-4が学生の回答、特にマイノリティスコアリングクラスに類似した応答を生成し、データを増強するプロンプトを作成した。
次に、拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
モデル性能は精度、精度、リコール、F1スコアを用いて評価した。
スコアリング性能を調べるために,様々な拡張データを組み込んだ結果,モデル性能が向上したことが判明した。
2つの項目で観測される平均的な最大増加は、精度が3.5%、精度が30.6%、リコールが21.1%、F1スコアが24.2%である。
注目すべきは、拡張データのわずか5%で2.6%、29.2%、15.1%、19.6%という大幅な改善があったことだ。
興味深いことに、改善の程度は特定のデータセットによって異なる。
さらに,安定した改善を得るためには,様々なデータ量(5%~40%)が必要であった。
また、GPT-4の強化データを用いて訓練されたモデルと、追加の学生による回答で訓練されたモデルを比較した。
この結果から,前者が後者のパフォーマンスに匹敵する,あるいは超えていることが示唆された。
具体的には、4つの指標にそれぞれ1.7%、1.9%、11.0%、7.8%の差がある。
本研究は,GPT-4を用いたデータ拡張手法の有効性と有効性について述べる。
関連論文リスト
- CLIP the Bias: How Useful is Balancing Data in Multimodal Learning? [72.19502317793133]
比較言語画像事前学習(CLIP)におけるバイアス軽減のためのデータバランスの有効性について検討する。
表現バイアスと相関バイアスの両方を低減するために,Multi-Modal Moment Matching (M4) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T14:43:17Z) - Automated Root Causing of Cloud Incidents using In-Context Learning with
GPT-4 [23.856839017006386]
ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。
GPT-4モデルの巨大なサイズは、ユーザデータにそれを微調整しようとする際の課題を示す。
そこで本研究では,自動ルート生成のためのコンテキスト内学習手法を提案し,微調整の必要性を排除した。
論文 参考訳(メタデータ) (2024-01-24T21:02:07Z) - Applying Large Language Models and Chain-of-Thought for Automatic
Scoring [23.076596289069506]
本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。
我々は、これまで人工知能ベースの自動スコアリングツールの使用を制限していたアクセシビリティ、技術的複雑さ、説明可能性の欠如といった課題を克服することに注力した。
論文 参考訳(メタデータ) (2023-11-30T21:22:43Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - NLU on Data Diets: Dynamic Data Subset Selection for NLP Classification
Tasks [0.0]
大きな言語モデルを微調整することは、NLUアプリケーションのコストを膨らませる。
コンピュータビジョンにおける最近の研究は、トレーニング時間を短縮するためにデータプルーニングを使用している。
微調整中に重要でない例を定期的に採点・廃棄するカリキュラムを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:30:41Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Towards Fair Federated Learning with Zero-Shot Data Augmentation [123.37082242750866]
フェデレーション学習は重要な分散学習パラダイムとして登場し、サーバはクライアントデータにアクセスせずに、多くのクライアントがトレーニングしたモデルからグローバルモデルを集約する。
本稿では, 統計的不均一性を緩和し, フェデレートネットワークにおけるクライアント間での精度向上を図るために, ゼロショットデータ拡張を用いた新しいフェデレーション学習システムを提案する。
Fed-ZDAC (クライアントでのゼロショットデータ拡張によるフェデレーション学習) と Fed-ZDAS (サーバでのゼロショットデータ拡張によるフェデレーション学習) の2種類について検討する。
論文 参考訳(メタデータ) (2021-04-27T18:23:54Z) - Improving Auto-Augment via Augmentation-Wise Weight Sharing [123.71986174280741]
自動拡張検索の重要な要素は、特定の拡張ポリシーの評価プロセスである。
本稿では,モデルの強化トレーニングのダイナミクスについて検討する。
我々は,Augmentation-Wise Weight Sharing (AWS)に基づいて,高速かつ高精度な評価プロセスを構築するために,強力で効率的なプロキシタスクを設計する。
論文 参考訳(メタデータ) (2020-09-30T15:23:12Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - DARE: Data Augmented Relation Extraction with GPT-2 [0.26651200086513094]
本稿では,データ拡張関係抽出(DARE, Data Augmented Relation extract)を提案する。
DAREは、3つの広く使われているバイオメディカルREデータセットにおいて、前回の結果を平均4.7F1ポイント上回った。
論文 参考訳(メタデータ) (2020-04-06T14:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。