論文の概要: SemDeDup: Data-efficient learning at web-scale through semantic
deduplication
- arxiv url: http://arxiv.org/abs/2303.09540v2
- Date: Sat, 18 Mar 2023 10:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 11:30:53.500312
- Title: SemDeDup: Data-efficient learning at web-scale through semantic
deduplication
- Title(参考訳): SemDeDup:セマンティック重複によるWebスケールのデータ効率学習
- Authors: Amro Abbas, Kushal Tirumala, D\'aniel Simig, Surya Ganguli, Ari S.
Morcos
- Abstract要約: 本稿では,事前学習したモデルの埋め込みを利用して意味的重複を識別・除去するSemDeDupを紹介する。
SemDeDupは、パフォーマンス損失を最小限に抑え、トレーニング時間の半減を効果的に行うことができることを示す。
また、部分的にキュレートされたデータセットであるC4でトレーニングされた言語モデルの解析により、SemDeDupは、効率の向上を提供しながら、以前のアプローチよりも改善されていることを示す。
- 参考スコア(独自算出の注目度): 34.38272674518666
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Progress in machine learning has been driven in large part by massive
increases in data. However, large web-scale datasets such as LAION are largely
uncurated beyond searches for exact duplicates, potentially leaving much
redundancy. Here, we introduce SemDeDup, a method which leverages embeddings
from pre-trained models to identify and remove semantic duplicates: data pairs
which are semantically similar, but not exactly identical. Removing semantic
duplicates preserves performance and speeds up learning. Analyzing a subset of
LAION, we show that SemDeDup can remove 50% of the data with minimal
performance loss, effectively halving training time. Moreover, performance
increases out of distribution. Also, analyzing language models trained on C4, a
partially curated dataset, we show that SemDeDup improves over prior approaches
while providing efficiency gains. SemDeDup provides an example of how simple
ways of leveraging quality embeddings can be used to make models learn faster
with less data.
- Abstract(参考訳): 機械学習の進歩の大部分は、データの大幅な増加によるものだ。
しかしながら、laionのような大規模なwebスケールのデータセットは、正確な重複の検索以上のものが多く、冗長性が失われる可能性がある。
本稿では,semdedupについて紹介する。semdedupは,事前学習したモデルからの埋め込みを利用して意味的重複を識別し除去する手法である。
セマンティクスの重複を取り除くことは、パフォーマンスを保ち、学習をスピードアップする。
LAIONのサブセットを分析して、SemDeDupがパフォーマンス損失を最小限に抑え、トレーニング時間を半減できることを示す。
さらに、性能は分布から向上する。
また、部分的にキュレートされたデータセットであるc4でトレーニングされた言語モデルを分析することで、semdedupが以前のアプローチよりも改善され、効率が向上することを示した。
semdedupは、より少ないデータでモデルの学習を速くするために、品質埋め込みを利用する簡単な方法の例を提供する。
関連論文リスト
- Data Debiasing with Datamodels (D3M): Improving Subgroup Robustness via Data Selection [80.85902083005237]
データモデルによるデータデバイアス(Data Debiasing with Datamodels, D3M)は、マイノリティグループにおけるモデルの障害を駆動する特定のトレーニング例を分離し、削除するデバイアス(debiasing)アプローチである。
論文 参考訳(メタデータ) (2024-06-24T17:51:01Z) - FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset Deduplication [28.495688931328882]
我々は,最近のSemDeDupアルゴリズムに実装の容易な修正を導入し,観測する負の効果を低減する。
提案したFairDeDupアルゴリズムは,FairFaceおよびFACETデータセット上でのSemDeDupよりも優れたFairnessメトリックを実現する。
論文 参考訳(メタデータ) (2024-04-24T18:28:17Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Semantically Redundant Training Data Removal and Deep Model
Classification Performance: A Study with Chest X-rays [5.454938535500864]
本稿では,意味的に冗長なトレーニングデータを識別・除去するためのエントロピーに基づくサンプルスコアリング手法を提案する。
我々は、トレーニングデータの情報サブセットに基づいてトレーニングされたモデルが、トレーニングセット全体においてトレーニングされたモデルよりも大幅に優れる、公開可能なNIH胸部X線データセットを使用することを実証する。
論文 参考訳(メタデータ) (2023-09-18T13:56:34Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - CLIP: Train Faster with Less Data [3.2575001434344286]
ディープラーニングモデルは、トレーニングに膨大な量のデータを必要とします。
近年、機械学習はモデル中心のアプローチからデータ中心のアプローチへとシフトしている。
CLIP(CLIP, Curriculum Learning with Iterative data Pruning)を提案する。
論文 参考訳(メタデータ) (2022-12-02T21:29:48Z) - Scaling Laws and Interpretability of Learning from Repeated Data [4.3242395495523525]
データの大部分がユニークだが、そのごく一部が何度も繰り返されるモデル群をトレーニングします。
また,2重降下現象が出現し,連続したデータによってテスト損失が増加し,トレーニングの途中で増加することが示唆された。
予測可能な繰り返し周波数の範囲は、驚くほどパフォーマンスが低下する。
論文 参考訳(メタデータ) (2022-05-21T02:14:27Z) - Reminding the Incremental Language Model via Data-Free Self-Distillation [26.960750314663294]
擬似データによる増分学習は、ニューラルネットワークにおける破滅的な忘れを軽減できる。
データフリー自己蒸留(DFSD)を用いたインクリメンタル言語モデルを提案する。
我々のDFSDは、擬似データの最大減少率が90%であっても、従来の最先端手法を超えることができる。
論文 参考訳(メタデータ) (2021-10-17T07:27:43Z) - Deduplicating Training Data Makes Language Models Better [50.22588162039083]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。
これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。
トレーニングデータセットを分離する2つのツールを開発しています。
論文 参考訳(メタデータ) (2021-07-14T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。