論文の概要: Regurgitative Training: The Value of Real Data in Training Large Language Models
- arxiv url: http://arxiv.org/abs/2407.12835v1
- Date: Wed, 3 Jul 2024 18:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:37:51.467819
- Title: Regurgitative Training: The Value of Real Data in Training Large Language Models
- Title(参考訳): リハビリテーショントレーニング:大規模言語モデルの訓練における実データの価値
- Authors: Jinghui Zhang, Dandan Qiao, Mochen Yang, Qiang Wei,
- Abstract要約: LLMの性能に及ぼす「相対的学習」の影響について検討した。
退行訓練がLSMの性能を著しく向上させる強い証拠が得られている。
本稿では,3つの異なる戦略を提案して評価する。
- 参考スコア(独自算出の注目度): 1.2815904071470703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What happens if we train a new Large Language Model (LLM) using data that are at least partially generated by other LLMs? The explosive success of LLMs means that a substantial amount of content online will be generated by LLMs rather than humans, which will inevitably enter the training datasets of next-generation LLMs. We evaluate the implications of such "regurgitative training" on LLM performance. Through fine-tuning GPT-3.5 with data generated either by itself or by other LLMs in a machine translation task, we find strong evidence that regurgitative training clearly handicaps the performance of LLMs. The same performance loss of regurgitative training is observed on transformer models that we train from scratch. We find suggestive evidence that the performance disadvantage of regurgitative training can be attributed to at least two mechanisms: (1) higher error rates and (2) lower lexical diversity in LLM-generated data as compared to real data. Based on these mechanisms, we propose and evaluate three different strategies to mitigate the performance loss of regurgitative training. First, we devise data-driven metrics to gauge the quality of each LLM-generated data instance, and then carry out an ordered training process where high-quality data are added before low-quality ones. Second, we combine data generated by multiple different LLMs (as an attempt to increase lexical diversity). Third, we train an AI detection classifier to differentiate between LLM- and human-generated data, and include LLM-generated data in the order of resemblance to human-generated data. All three strategies can improve the performance of regurgitative training to some extent but are not always able to fully close the gap from training with real data. Our results highlight the value of real, human-generated data in training LLMs, which cannot be easily substituted by synthetic, LLM-generated data.
- Abstract(参考訳): 他のLLMによって少なくとも部分的に生成されるデータを使って、新しいLarge Language Model(LLM)をトレーニングした場合、どうなるでしょう?
LLMの爆発的な成功は、オンライン上のかなりの量のコンテンツが人間ではなくLCMによって生成されることを意味する。
LLM性能に対するこのような「相対的学習」の影響について検討した。
GPT-3.5を機械翻訳タスクで生成したデータを用いて微調整することにより,LLMの性能が向上することを示す強い証拠が得られた。
私たちがゼロからトレーニングするトランスフォーマーモデルでは、同じパフォーマンスの低下が見られます。
その結果,(1) 誤り率の増加と(2) LLM 生成データにおける語彙の多様性の低下の2つのメカニズムが,実データと比較できる可能性が示唆された。
本研究は,これらのメカニズムを基礎として,学習能力の低下を緩和するための3つの戦略を提案し,評価する。
まず、LLMの生成する各データインスタンスの品質を計測するために、データ駆動メトリクスを考案し、次に、高品質なデータを低品質のデータの前に追加する順序付きトレーニングプロセスを実行します。
第二に、複数の異なるLSMによって生成されたデータを組み合わせる(語彙の多様性を高めるために)。
第3に、LLMと人間生成データとを区別するためにAI検出分類器を訓練し、人生成データと類似した順にLLM生成データを含む。
これら3つの戦略は、ある程度のリグルジティブトレーニングのパフォーマンスを改善することができるが、実際のデータによるトレーニングのギャップを完全に埋めることはできない。
この結果から,LLM 生成データに置き換えることができない LLM の学習において,実際の人為的データの価値が浮き彫りになった。
関連論文リスト
- Towards Robust Evaluation of Unlearning in LLMs via Data Transformations [17.927224387698903]
大きな言語モデル(LLM)は、通常のNLPベースのユースケースからAIエージェントまで、幅広いアプリケーションで大きな成功を収めている。
近年,マシン・アンラーニング(MUL)分野の研究が活発化している。
主な考え方は、LLMが通常のタスクのパフォーマンス損失に悩まされることなく、特定の情報(例えば、PII)を忘れること(未学習)を強制することである。
論文 参考訳(メタデータ) (2024-11-23T07:20:36Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Under the Surface: Tracking the Artifactuality of LLM-Generated Data [21.002983022237604]
この研究は、人工データの生成において、大きな言語モデル(LLM)の役割を拡大するものである。
我々の知る限りでは、多種多様な LLM 生成テキストデータを収集する最初の研究である。
人工データの人間のパフォーマンスにマッチする能力にもかかわらず、本論文は重大な隠蔽格差を明らかにした。
論文 参考訳(メタデータ) (2024-01-26T07:53:27Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。