論文の概要: Effective pruning of web-scale datasets based on complexity of concept
clusters
- arxiv url: http://arxiv.org/abs/2401.04578v2
- Date: Tue, 12 Mar 2024 10:35:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:07:49.601870
- Title: Effective pruning of web-scale datasets based on complexity of concept
clusters
- Title(参考訳): 概念クラスタの複雑さに基づくWebスケールデータセットの効率的なプルーニング
- Authors: Amro Abbas, Evgenia Rusak, Kushal Tirumala, Wieland Brendel, Kamalika
Chaudhuri, Ari S. Morcos
- Abstract要約: 本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
- 参考スコア(独自算出の注目度): 48.125618324485195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Utilizing massive web-scale datasets has led to unprecedented performance
gains in machine learning models, but also imposes outlandish compute
requirements for their training. In order to improve training and data
efficiency, we here push the limits of pruning large-scale multimodal datasets
for training CLIP-style models. Today's most effective pruning method on
ImageNet clusters data samples into separate concepts according to their
embedding and prunes away the most prototypical samples. We scale this approach
to LAION and improve it by noting that the pruning rate should be
concept-specific and adapted to the complexity of the concept. Using a simple
and intuitive complexity measure, we are able to reduce the training cost to a
quarter of regular training. By filtering from the LAION dataset, we find that
training on a smaller set of high-quality data can lead to higher performance
with significantly lower training costs. More specifically, we are able to
outperform the LAION-trained OpenCLIP-ViT-B32 model on ImageNet zero-shot
accuracy by 1.1p.p. while only using 27.7% of the data and training compute.
Despite a strong reduction in training cost, we also see improvements on
ImageNet dist. shifts, retrieval tasks and VTAB. On the DataComp Medium
benchmark, we achieve a new state-of-the-art
Imagehttps://info.arxiv.org/help/prep#commentsNet zero-shot accuracy and a
competitive average zero-shot accuracy on 38 evaluation tasks.
- Abstract(参考訳): 大規模なWebスケールデータセットを使用することで、機械学習モデルでは前例のないパフォーマンス向上が達成されている。
トレーニングとデータ効率を改善するために、我々はCLIPスタイルのモデルをトレーニングするための大規模マルチモーダルデータセットのプルーニングの限界を押し進める。
ImageNetクラスタのデータサンプルに対する今日の最も効果的なプルーニング手法は、埋め込みとプルーンにより、最もプロトタイプ的なサンプルを分離する。
このアプローチをlaionに拡大し、pruning rateは概念に特有で、概念の複雑さに適応すべきであることを指摘して改善します。
シンプルで直感的な複雑性測定を使って、トレーニングコストを通常のトレーニングの4分の1に削減できます。
LAIONデータセットからフィルタリングすることで、より小さな高品質なデータセットでのトレーニングが、トレーニングコストを大幅に削減して、より高いパフォーマンスにつながることが分かる。
より具体的には、ImageNetゼロショット精度でLAIONで訓練されたOpenCLIP-ViT-B32モデルを1.1pで上回ります。
しかし、データとトレーニングの計算は27.7%に過ぎない。
トレーニングコストは大幅に削減されているが、ImageNet Dist. shifts、検索タスク、VTABの改善も見られる。
datacomp mediumベンチマークでは、38の評価タスクにおいて、新しい最先端のイメージhttps://info.arxiv.org/help/prep#commentsnetゼロショット精度と競合平均ゼロショット精度を達成する。
関連論文リスト
- Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - Are Large-scale Datasets Necessary for Self-Supervised Pre-training? [29.49873710927313]
対象のタスクデータのみを活用する自己指導型事前学習シナリオについて検討する。
本研究は,BEiTなどのデノイングオートエンコーダが,事前学習データの種類やサイズに対してより堅牢であることを示す。
COCOでは、COCOイメージのみを使用して事前トレーニングを行う場合、検出とインスタンスセグメンテーションのパフォーマンスは、同等の設定で教師付きImageNet事前トレーニングを上回る。
論文 参考訳(メタデータ) (2021-12-20T18:41:32Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。