Fugu-MT 論文翻訳(概要): Using GPT-4 to Augment Unbalanced Data for Automatic Scoring

論文の概要: Using GPT-4 to Augment Unbalanced Data for Automatic Scoring

arxiv url: http://arxiv.org/abs/2310.18365v2
Date: Sat, 18 Nov 2023 02:05:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 17:08:34.217029
Title: Using GPT-4 to Augment Unbalanced Data for Automatic Scoring
Title（参考訳）: GPT-4を用いた自動スコーリングのためのアンバランスデータの拡張
Authors: Luyang Fang, Gyeong-Geon Lee and Xiaoming Zhai
Abstract要約: 生成型大規模言語モデルであるGPT-4を用いた新しいテキストデータ拡張フレームワークを提案する。我々は,GPT-4が学生の回答に類似した応答を生成するためのプロンプトを作成し,特にマイノリティスコアリングクラスについて検討した。拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
参考スコア（独自算出の注目度）: 0.6278186810520364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning-based automatic scoring can be challenging if students' responses are unbalanced across scoring categories, as it introduces uncertainty in the machine training process. To meet this challenge, we introduce a novel text data augmentation framework using GPT-4, a generative large language model, specifically tailored for unbalanced datasets in automatic scoring. Our experimental dataset comprised student-written responses to two science items. We crafted prompts for GPT-4 to generate responses resembling student-written answers, particularly for the minority scoring classes, to augment the data. We then finetuned DistillBERT for automatic scoring based on the augmented and original datasets. Model performance was assessed using accuracy, precision, recall, and F1 score. We incorporate varied amounts of augmented data to examine scoring performance, and our findings revealed remarkedly improved model performance. The average maximum increase observed across two items is: 3.5% for accuracy, 30.6% for precision, 21.1% for recall, and 24.2% for F1 score. Notably, using just 5% of the augmented data led to substantial improvements: 2.6%, 29.2%, 15.1%, and 19.6%. Interestingly, the extent of improvement varied depending on specific datasets. Moreover, we found that a varying amount of augmented data (5%-40%) was needed to obtain a stable improvement. We also compare models trained with GPT-4 augmented data and those trained with additional student-written responses. The findings indicate that former ones match or even exceed the performance of the latter. Specifically, there is an average difference of 1.7%, 1.9%, 11.0%, and 7.8% for four metrics separately. This research underscores the potential and effectiveness of data augmentation techniques utilizing GPT-4 in addressing unbalanced datasets within automated assessment.
Abstract（参考訳）: 機械学習に基づく自動スコアリングは, 学習過程における不確実性を導入するため, スコアリングカテゴリー間で学生の反応が不均衡である場合, 課題となる。この課題を克服するために,自動スコアリングにおける不均衡データセット用に特別に調整された生成型大規模言語モデルgpt-4を用いた新しいテキストデータ拡張フレームワークを提案する。実験データセットは2つの科学項目に対する学生による回答からなる。我々は、GPT-4が学生の回答、特にマイノリティスコアリングクラスに類似した応答を生成し、データを増強するプロンプトを作成した。次に、拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。モデル性能は精度、精度、リコール、F1スコアを用いて評価した。スコアリング性能を調べるために,様々な拡張データを組み込んだ結果,モデル性能が向上したことが判明した。 2つの項目で観測される平均的な最大増加は、精度が3.5%、精度が30.6%、リコールが21.1%、F1スコアが24.2%である。注目すべきは、拡張データのわずか5%で2.6%、29.2%、15.1%、19.6%という大幅な改善があったことだ。興味深いことに、改善の程度は特定のデータセットによって異なる。さらに,安定した改善を得るためには,様々なデータ量(5%～40%)が必要であった。また、GPT-4の強化データを用いて訓練されたモデルと、追加の学生による回答で訓練されたモデルを比較した。この結果から,前者が後者のパフォーマンスに匹敵する,あるいは超えていることが示唆された。具体的には、4つの指標にそれぞれ1.7%、1.9%、11.0%、7.8%の差がある。本研究は,GPT-4を用いたデータ拡張手法の有効性と有効性について述べる。

関連論文リスト

Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。審査員モデルの応答を正確に評価するために、外部ツールが導入される。合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文参考訳（メタデータ） (2025-04-27T15:21:59Z)
Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。 GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-18T23:38:21Z)
Data Augmentation to Improve Large Language Models in Food Hazard and Product Detection [0.0]
本研究の目的は,ChatGPT-4o-miniを用いたデータ拡張が食品の危険度および製品分析に与える影響を実証することである。拡張データはChatGPT-4o-miniを使用して生成され、その後、RoBERTaベースとFlan-T5ベースという2つの大きな言語モデルのトレーニングに使用される。その結果、拡張データを使用することで、リコール、F1スコア、精度、精度など、主要な指標間のモデルパフォーマンスが改善された。
論文参考訳（メタデータ） (2025-02-12T12:14:35Z)
Phi-4 Technical Report [72.06109095293243]
本研究では,データ品質に重点を置いた14ビリオンパラメータ言語モデル phi-4 を提案する。多くの言語モデルとは異なり、事前学習は主にWebコンテンツやコードなどの有機データソースに基づいており、phi-4はトレーニングプロセス全体を通して戦略的に合成データを組み込んでいる。
論文参考訳（メタデータ） (2024-12-12T03:37:41Z)
Automated, Unsupervised, and Auto-parameterized Inference of Data Patterns and Anomaly Detection [6.454528834218153]
RIOLUは完全に自動化され、自動的にパラメータ化され、ラベル付きサンプルを必要としない。 RIOLUはさまざまな領域のデータセットから正確なパターンを生成することができ、高いF1スコアは97.2%である。 RIOLUの派生版は、ユーザーガイダンスによってさらに精度を高め、F1では最大37.4%改善されている。
論文参考訳（メタデータ） (2024-12-06T18:18:26Z)
Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文参考訳（メタデータ） (2024-11-07T22:51:47Z)
Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.19939701706869]
我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
論文参考訳（メタデータ） (2024-08-15T08:12:52Z)
Automated Root Causing of Cloud Incidents using In-Context Learning with GPT-4 [23.856839017006386]
ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。 GPT-4モデルの巨大なサイズは、ユーザデータにそれを微調整しようとする際の課題を示す。そこで本研究では,自動ルート生成のためのコンテキスト内学習手法を提案し,微調整の必要性を排除した。
論文参考訳（メタデータ） (2024-01-24T21:02:07Z)
NERIF: GPT-4V for Automatic Scoring of Drawn Models [0.6278186810520364]
最近リリースされたGPT-4Vは、科学的モデリングの実践を前進させるユニークな機会を提供する。我々は,GPT-4Vに学生の描画モデルを評価するための指導音とルーブリックを用いた手法を開発した。 GPT-4Vのスコアを人間の専門家のスコアと比較し、スコアの精度を計算した。
論文参考訳（メタデータ） (2023-11-21T20:52:04Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-05-24T11:26:59Z)
Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文参考訳（メタデータ） (2023-04-06T17:58:09Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)
Improving Performance of Automated Essay Scoring by using back-translation essays and adjusted scores [0.0]
バックトランスレーションとスコア調整を用いたエッセイスコアペア数を増やす手法を提案する。先行作業から得られたモデルを用いて,拡張データの有効性を評価する。モデルをトレーニングするために拡張データを使用することで、モデルの性能が向上した。
論文参考訳（メタデータ） (2022-03-01T11:05:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。