論文の概要: RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold
- arxiv url: http://arxiv.org/abs/2406.14532v1
- Date: Thu, 20 Jun 2024 17:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:23:24.025450
- Title: RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold
- Title(参考訳): 誤り合成データのRLは8FoldによるLLM数学推論の効率をスケールする
- Authors: Amrith Setlur, Saurabh Garg, Xinyang Geng, Naman Garg, Virginia Smith, Aviral Kumar,
- Abstract要約: モデル生成合成データのトレーニングは、LLMを微調整する上で有望なアプローチであるが、それがいつ役に立つかは、まだ不明である。
ステップごとの負のトレーニングは、ポジティブなデータにおける突発的な相関を解き放つのに役立ちます。
- 参考スコア(独自算出の注目度): 41.28168368547099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training on model-generated synthetic data is a promising approach for finetuning LLMs, but it remains unclear when it helps or hurts. In this paper, we investigate this question for math reasoning via an empirical study, followed by building a conceptual understanding of our observations. First, we find that while the typical approach of finetuning a model on synthetic correct or positive problem-solution pairs generated by capable models offers modest performance gains, sampling more correct solutions from the finetuned learner itself followed by subsequent fine-tuning on this self-generated data $\textbf{doubles}$ the efficiency of the same synthetic problems. At the same time, training on model-generated positives can amplify various spurious correlations, resulting in flat or even inverse scaling trends as the amount of data increases. Surprisingly, we find that several of these issues can be addressed if we also utilize negative responses, i.e., model-generated responses that are deemed incorrect by a final answer verifier. Crucially, these negatives must be constructed such that the training can appropriately recover the utility or advantage of each intermediate step in the negative response. With this per-step scheme, we are able to attain consistent gains over only positive data, attaining performance similar to amplifying the amount of synthetic data by $\mathbf{8 \times}$. We show that training on per-step negatives can help to unlearn spurious correlations in the positive data, and is equivalent to advantage-weighted reinforcement learning (RL), implying that it inherits robustness benefits of RL over imitating positive data alone.
- Abstract(参考訳): モデル生成合成データのトレーニングは、LLMを微調整する上で有望なアプローチであるが、それがいつ役に立つかは、まだ不明である。
本稿では,この問題を経験的研究を通じて考察し,続いて観察概念の理解を構築した。
まず、有能なモデルによって生成される正解対や正解対のモデルを微調整する典型的な手法は、適度な性能向上をもたらすが、細調整された学習者自身からより正確な解をサンプリングし、その後、この自己生成データ$\textbf{doubles}$同じ合成問題の効率について微調整する。
同時に、モデル生成陽性のトレーニングは、様々なスプリアス相関を増幅し、データ量が増加するにつれて、フラットまたは逆スケーリングの傾向をもたらす。
意外なことに、これらの問題のいくつかは、負の応答、すなわち、最終回答検証器によって誤ったと判断されるモデル生成応答も利用すれば解決できる。
重要なことに、これらの負の反応は、トレーニングが負の反応における各中間ステップの効用または利点を適切に回復できるように構成されなければならない。
このステップごとのスキームにより、正のデータのみに対して一貫したゲインを得ることができ、合成データの量を$\mathbf{8 \times}$で増幅するようなパフォーマンスが得られる。
ステップごとの負のトレーニングは、正のデータの急激な相関を解き放つのに役立ち、利得重み付き強化学習(RL)と同等であり、正のデータのみを模倣するよりも、RLの堅牢性の利点を継承することを意味する。
関連論文リスト
- Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Smoothly Giving up: Robustness for Simple Models [30.56684535186692]
このようなモデルをトレーニングするアルゴリズムの例としては、ロジスティック回帰とブースティングがある。
我々は、標準凸損失関数間のチューニングを行う、$Served-Servedジョイント凸損失関数を用いて、そのようなモデルを堅牢に訓練する。
また、ロジスティック回帰のためのCOVID-19データセットを強化し、複数の関連ドメインにまたがる効果のアプローチを強調します。
論文 参考訳(メタデータ) (2023-02-17T19:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。