論文の概要: Deduplicating Training Data Makes Language Models Better
- arxiv url: http://arxiv.org/abs/2107.06499v1
- Date: Wed, 14 Jul 2021 06:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:26:56.597671
- Title: Deduplicating Training Data Makes Language Models Better
- Title(参考訳): トレーニングデータの重複が言語モデルを改善する
- Authors: Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas
Eck, Chris Callison-Burch, Nicholas Carlini
- Abstract要約: 既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。
これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。
トレーニングデータセットを分離する2つのツールを開発しています。
- 参考スコア(独自算出の注目度): 50.22588162039083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We find that existing language modeling datasets contain many near-duplicate
examples and long repetitive substrings. As a result, over 1% of the unprompted
output of language models trained on these datasets is copied verbatim from the
training data. We develop two tools that allow us to deduplicate training
datasets -- for example removing from C4 a single 61 word English sentence that
is repeated over 60,000 times. Deduplication allows us to train models that
emit memorized text ten times less frequently and require fewer train steps to
achieve the same or better accuracy. We can also reduce train-test overlap,
which affects over 4% of the validation set of standard datasets, thus allowing
for more accurate evaluation. We release code for reproducing our work and
performing dataset deduplication at
https://github.com/google-research/deduplicate-text-datasets.
- Abstract(参考訳): 既存の言語モデリングデータセットには、多くの類似した例と長い反復的なサブストリングが含まれていることがわかった。
その結果、これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされる。
トレーニングデータセットの重複を解消する2つのツールを開発した – 例えば,6万回以上繰り返された単一の61単語の英語文をc4から削除する,という方法です。
重複により、記憶されたテキストを10倍の頻度で出力し、同じまたはより良い精度を達成するために列車のステップを少なくするモデルを訓練することができる。
また、標準データセットの検証セットの4%以上に影響を与えるトレイン-テストのオーバーラップを減らすことで、より正確な評価を可能にします。
作業の再現とデータセットの重複をhttps://github.com/google-research/deduplicate-text-datasetsで実行するコードをリリースする。
関連論文リスト
- Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Constructing Multilingual Code Search Dataset Using Neural Machine
Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。
その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文 参考訳(メタデータ) (2023-06-27T16:42:36Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - SemDeDup: Data-efficient learning at web-scale through semantic
deduplication [34.38272674518666]
本稿では,事前学習したモデルの埋め込みを利用して意味的重複を識別・除去するSemDeDupを紹介する。
SemDeDupは、パフォーマンス損失を最小限に抑え、トレーニング時間の半減を効果的に行うことができることを示す。
また、部分的にキュレートされたデータセットであるC4でトレーニングされた言語モデルの解析により、SemDeDupは、効率の向上を提供しながら、以前のアプローチよりも改善されていることを示す。
論文 参考訳(メタデータ) (2023-03-16T17:53:24Z) - Scaling Laws and Interpretability of Learning from Repeated Data [4.3242395495523525]
データの大部分がユニークだが、そのごく一部が何度も繰り返されるモデル群をトレーニングします。
また,2重降下現象が出現し,連続したデータによってテスト損失が増加し,トレーニングの途中で増加することが示唆された。
予測可能な繰り返し周波数の範囲は、驚くほどパフォーマンスが低下する。
論文 参考訳(メタデータ) (2022-05-21T02:14:27Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。