論文の概要: Scaling Laws and Interpretability of Learning from Repeated Data
- arxiv url: http://arxiv.org/abs/2205.10487v1
- Date: Sat, 21 May 2022 02:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 19:07:03.599064
- Title: Scaling Laws and Interpretability of Learning from Repeated Data
- Title(参考訳): 反復データからの学習のスケーリング法則と解釈可能性
- Authors: Danny Hernandez, Tom Brown, Tom Conerly, Nova DasSarma, Dawn Drain,
Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Tom Henighan, Tristan
Hume, Scott Johnston, Ben Mann, Chris Olah, Catherine Olsson, Dario Amodei,
Nicholas Joseph, Jared Kaplan and Sam McCandlish
- Abstract要約: データの大部分がユニークだが、そのごく一部が何度も繰り返されるモデル群をトレーニングします。
また,2重降下現象が出現し,連続したデータによってテスト損失が増加し,トレーニングの途中で増加することが示唆された。
予測可能な繰り返し周波数の範囲は、驚くほどパフォーマンスが低下する。
- 参考スコア(独自算出の注目度): 4.3242395495523525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models have been trained on vast datasets, but also
often on repeated data, either intentionally for the purpose of upweighting
higher quality data, or unintentionally because data deduplication is not
perfect and the model is exposed to repeated data at the sentence, paragraph,
or document level. Some works have reported substantial negative performance
effects of this repeated data. In this paper we attempt to study repeated data
systematically and to understand its effects mechanistically. To do this, we
train a family of models where most of the data is unique but a small fraction
of it is repeated many times. We find a strong double descent phenomenon, in
which repeated data can lead test loss to increase midway through training. A
predictable range of repetition frequency leads to surprisingly severe
degradation in performance. For instance, performance of an 800M parameter
model can be degraded to that of a 2x smaller model (400M params) by repeating
0.1% of the data 100 times, despite the other 90% of the training tokens
remaining unique. We suspect there is a range in the middle where the data can
be memorized and doing so consumes a large fraction of the model's capacity,
and this may be where the peak of degradation occurs. Finally, we connect these
observations to recent mechanistic interpretability work - attempting to
reverse engineer the detailed computations performed by the model - by showing
that data repetition disproportionately damages copying and internal structures
associated with generalization, such as induction heads, providing a possible
mechanism for the shift from generalization to memorization. Taken together,
these results provide a hypothesis for why repeating a relatively small
fraction of data in large language models could lead to disproportionately
large harms to performance.
- Abstract(参考訳): 近年の大規模言語モデルは、膨大なデータセットで訓練されているが、高品質なデータの重み付けを目的として、あるいは意図せず、文章、段落、文書レベルで繰り返しデータに晒されるため、繰り返しデータでも訓練されている。
いくつかの研究は、この繰り返しデータによるかなりのパフォーマンス効果を報告している。
本稿では,繰り返しデータを体系的に研究し,その効果を機械的に理解しようと試みる。
これを実現するために、データの大部分がユニークだが、そのごく一部が何度も繰り返されるモデルファミリをトレーニングします。
また,2重降下現象は,反復的なデータによってテスト損失が増加し,トレーニングの途中で増加する可能性がある。
予測可能な繰り返し周波数の範囲は、驚くほどパフォーマンスが低下する。
例えば、800mのパラメータモデルの性能は、他の90%のトレーニングトークンがユニークであるにもかかわらず、データの0.1%を100回繰り返して、2倍小さいモデル(400mパラム)に低下させることができる。
私たちは、データが記憶できる範囲があり、それによってモデルのキャパシティの大部分が消費されるのではないかと考えています。
最後に、これらの観測を最近の機械的解釈可能性作業(モデルによって実行される詳細な計算をリバースエンジニアリングしようとする)に結び付け、データの繰り返しが、誘導ヘッドのような一般化に関連するコピーや内部構造を不均等に損なうことを示し、一般化から記憶へのシフトのメカニズムを提供する。
これらの結果は、大規模な言語モデルで比較的少ないデータを繰り返し繰り返すと、パフォーマンスに不釣り合いに大きな害をもたらすという仮説をもたらしている。
関連論文リスト
- Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。
以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。
大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文 参考訳(メタデータ) (2024-10-07T08:54:23Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Reminding the Incremental Language Model via Data-Free Self-Distillation [26.960750314663294]
擬似データによる増分学習は、ニューラルネットワークにおける破滅的な忘れを軽減できる。
データフリー自己蒸留(DFSD)を用いたインクリメンタル言語モデルを提案する。
我々のDFSDは、擬似データの最大減少率が90%であっても、従来の最先端手法を超えることができる。
論文 参考訳(メタデータ) (2021-10-17T07:27:43Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Synthesizing Irreproducibility in Deep Networks [2.28438857884398]
現代のディープネットワークは非生産性に苦しむ(非決定性または不特定化とも呼ばれる)
単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。
モデルの複雑さと非線形性の選択は、深いモデルを再現不能にする上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-02-21T21:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。