論文の概要: Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment
- arxiv url: http://arxiv.org/abs/2501.09126v1
- Date: Wed, 15 Jan 2025 20:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:59.150913
- Title: Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment
- Title(参考訳): オープンレスポンスアセスメントにおける大規模言語モデル生成と蒸留による人間関連トレーニングデータの拡張
- Authors: Conrad Borchers, Danielle R. Thomas, Jionghao Lin, Ralph Abboud, Kenneth R. Koedinger,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト分類タスクを低コストで自動化するのに役立つ。
対照的に、人間のコーディングは一般的により信頼性が高いが、大規模な調達には高価である。
両者の強みを生かしたハイブリッドソリューションを提案する。
- 参考スコア(独自算出の注目度): 4.788487793976781
- License:
- Abstract: Large Language Models (LLMs) like GPT-4o can help automate text classification tasks at low cost and scale. However, there are major concerns about the validity and reliability of LLM outputs. By contrast, human coding is generally more reliable but expensive to procure at scale. In this study, we propose a hybrid solution to leverage the strengths of both. We combine human-coded data and synthetic LLM-produced data to fine-tune a classical machine learning classifier, distilling both into a smaller BERT model. We evaluate our method on a human-coded test set as a validity measure for LLM output quality. In three experiments, we systematically vary LLM-generated samples' size, variety, and consistency, informed by best practices in LLM tuning. Our findings indicate that augmenting datasets with synthetic samples improves classifier performance, with optimal results achieved at an 80% synthetic to 20% human-coded data ratio. Lower temperature settings of 0.3, corresponding to less variability in LLM generations, produced more stable improvements but also limited model learning from augmented samples. In contrast, higher temperature settings (0.7 and above) introduced greater variability in performance estimates and, at times, lower performance. Hence, LLMs may produce more uniform output that classifiers overfit to earlier or produce more diverse output that runs the risk of deteriorating model performance through information irrelevant to the prediction task. Filtering out inconsistent synthetic samples did not enhance performance. We conclude that integrating human and LLM-generated data to improve text classification models in assessment offers a scalable solution that leverages both the accuracy of human coding and the variety of LLM outputs.
- Abstract(参考訳): GPT-4oのような大規模言語モデル(LLM)は、テキスト分類タスクを低コストで自動化するのに役立つ。
しかし、LLM出力の妥当性と信頼性には大きな懸念がある。
対照的に、人間のコーディングは一般的により信頼性が高いが、大規模な調達には高価である。
本研究では,両者の強みを生かしたハイブリッドソリューションを提案する。
我々は、人間のコード化されたデータと合成LLM生成データを組み合わせて、古典的な機械学習分類器を微調整し、両者をより小さなBERTモデルに蒸留する。
LLMの出力品質に対する妥当性評価として,人間のコード化テストセットを用いて本手法の評価を行った。
3つの実験では, LLMチューニングのベストプラクティスにより, LLM生成サンプルのサイズ, 多様性, 一貫性を体系的に変化させる。
その結果, 合成サンプルを用いたデータセットの増強により分類性能が向上し, 80%から20%の人為的データ比で最適な結果が得られた。
LLM世代における変動性の低い0.3の低い温度設定は、より安定な改善をもたらしたが、強化サンプルからのモデル学習も制限された。
対照的に、より高い温度設定 (0.7以上) では、性能推定や時として、より低い性能が導入された。
したがって、LCMはより均一な出力を生成し、分類器が早期に過度に適合したり、予測タスクとは無関係な情報を通じてモデル性能を劣化させるリスクを負うような、より多様な出力を生成したりすることができる。
不整合性合成試料をろ過しても性能は向上しなかった。
我々は、人文分類モデルを改善するために人文とLLM生成データを統合することで、人間のコーディングの精度とLLM出力の多様性を両立させるスケーラブルなソリューションが提供されると結論付けた。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Regurgitative Training: The Value of Real Data in Training Large Language Models [1.2815904071470703]
LLMの性能に及ぼす「相対的学習」の影響について検討した。
退行訓練がLSMの性能を著しく向上させる強い証拠が得られている。
本稿では,3つの異なる戦略を提案して評価する。
論文 参考訳(メタデータ) (2024-07-03T18:42:55Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。