論文の概要: SemDeDup: Data-efficient learning at web-scale through semantic
deduplication
- arxiv url: http://arxiv.org/abs/2303.09540v2
- Date: Sat, 18 Mar 2023 10:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 11:30:53.500312
- Title: SemDeDup: Data-efficient learning at web-scale through semantic
deduplication
- Title(参考訳): SemDeDup:セマンティック重複によるWebスケールのデータ効率学習
- Authors: Amro Abbas, Kushal Tirumala, D\'aniel Simig, Surya Ganguli, Ari S.
Morcos
- Abstract要約: 本稿では,事前学習したモデルの埋め込みを利用して意味的重複を識別・除去するSemDeDupを紹介する。
SemDeDupは、パフォーマンス損失を最小限に抑え、トレーニング時間の半減を効果的に行うことができることを示す。
また、部分的にキュレートされたデータセットであるC4でトレーニングされた言語モデルの解析により、SemDeDupは、効率の向上を提供しながら、以前のアプローチよりも改善されていることを示す。
- 参考スコア(独自算出の注目度): 34.38272674518666
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Progress in machine learning has been driven in large part by massive
increases in data. However, large web-scale datasets such as LAION are largely
uncurated beyond searches for exact duplicates, potentially leaving much
redundancy. Here, we introduce SemDeDup, a method which leverages embeddings
from pre-trained models to identify and remove semantic duplicates: data pairs
which are semantically similar, but not exactly identical. Removing semantic
duplicates preserves performance and speeds up learning. Analyzing a subset of
LAION, we show that SemDeDup can remove 50% of the data with minimal
performance loss, effectively halving training time. Moreover, performance
increases out of distribution. Also, analyzing language models trained on C4, a
partially curated dataset, we show that SemDeDup improves over prior approaches
while providing efficiency gains. SemDeDup provides an example of how simple
ways of leveraging quality embeddings can be used to make models learn faster
with less data.
- Abstract(参考訳): 機械学習の進歩の大部分は、データの大幅な増加によるものだ。
しかしながら、laionのような大規模なwebスケールのデータセットは、正確な重複の検索以上のものが多く、冗長性が失われる可能性がある。
本稿では,semdedupについて紹介する。semdedupは,事前学習したモデルからの埋め込みを利用して意味的重複を識別し除去する手法である。
セマンティクスの重複を取り除くことは、パフォーマンスを保ち、学習をスピードアップする。
LAIONのサブセットを分析して、SemDeDupがパフォーマンス損失を最小限に抑え、トレーニング時間を半減できることを示す。
さらに、性能は分布から向上する。
また、部分的にキュレートされたデータセットであるc4でトレーニングされた言語モデルを分析することで、semdedupが以前のアプローチよりも改善され、効率が向上することを示した。
semdedupは、より少ないデータでモデルの学習を速くするために、品質埋め込みを利用する簡単な方法の例を提供する。
関連論文リスト
- Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Semantically Redundant Training Data Removal and Deep Model
Classification Performance: A Study with Chest X-rays [5.454938535500864]
本稿では,意味的に冗長なトレーニングデータを識別・除去するためのエントロピーに基づくサンプルスコアリング手法を提案する。
我々は、トレーニングデータの情報サブセットに基づいてトレーニングされたモデルが、トレーニングセット全体においてトレーニングされたモデルよりも大幅に優れる、公開可能なNIH胸部X線データセットを使用することを実証する。
論文 参考訳(メタデータ) (2023-09-18T13:56:34Z) - A Pre-trained Data Deduplication Model based on Active Learning [12.128827340330485]
汚れたデータ"問題は、ビッグデータの効果的な適用を著しく制限することができる。
本研究では,能動学習に基づく事前学習型重複解法モデルを提案する。
提案モデルでは、重複データ識別のための従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-07-31T03:56:46Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - CLIP: Train Faster with Less Data [3.2575001434344286]
ディープラーニングモデルは、トレーニングに膨大な量のデータを必要とします。
近年、機械学習はモデル中心のアプローチからデータ中心のアプローチへとシフトしている。
CLIP(CLIP, Curriculum Learning with Iterative data Pruning)を提案する。
論文 参考訳(メタデータ) (2022-12-02T21:29:48Z) - Scaling Laws and Interpretability of Learning from Repeated Data [4.3242395495523525]
データの大部分がユニークだが、そのごく一部が何度も繰り返されるモデル群をトレーニングします。
また,2重降下現象が出現し,連続したデータによってテスト損失が増加し,トレーニングの途中で増加することが示唆された。
予測可能な繰り返し周波数の範囲は、驚くほどパフォーマンスが低下する。
論文 参考訳(メタデータ) (2022-05-21T02:14:27Z) - Reminding the Incremental Language Model via Data-Free Self-Distillation [26.960750314663294]
擬似データによる増分学習は、ニューラルネットワークにおける破滅的な忘れを軽減できる。
データフリー自己蒸留(DFSD)を用いたインクリメンタル言語モデルを提案する。
我々のDFSDは、擬似データの最大減少率が90%であっても、従来の最先端手法を超えることができる。
論文 参考訳(メタデータ) (2021-10-17T07:27:43Z) - Deduplicating Training Data Makes Language Models Better [50.22588162039083]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。
これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。
トレーニングデータセットを分離する2つのツールを開発しています。
論文 参考訳(メタデータ) (2021-07-14T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。