論文の概要: Large-scale Dataset Pruning with Dynamic Uncertainty
- arxiv url: http://arxiv.org/abs/2306.05175v1
- Date: Thu, 8 Jun 2023 13:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 14:26:52.344256
- Title: Large-scale Dataset Pruning with Dynamic Uncertainty
- Title(参考訳): 動的不確実性を考慮した大規模データセットプラニング
- Authors: Muyang He, Shuo Yang, Tiejun Huang, Bo Zhao
- Abstract要約: 画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
我々の知る限り、これは大規模なデータセット、すなわち ImageNet-1K と ImageNet-21K、および高度なモデル、すなわち Swin Transformer と ConvNeXt でデータセットプルーニングを研究する最初の研究である。
- 参考スコア(独自算出の注目度): 23.113720961414614
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The state of the art of many learning tasks, e.g., image classification, is
advanced by collecting larger datasets and then training larger models on them.
As the outcome, the increasing computational cost is becoming unaffordable. In
this paper, we investigate how to prune the large-scale datasets, and thus
produce an informative subset for training sophisticated deep models with
negligible performance drop. We propose a simple yet effective dataset pruning
method by exploring both the prediction uncertainty and training dynamics. To
our knowledge, this is the first work to study dataset pruning on large-scale
datasets, i.e., ImageNet-1K and ImageNet-21K, and advanced models, i.e., Swin
Transformer and ConvNeXt. Extensive experimental results indicate that our
method outperforms the state of the art and achieves 75% lossless compression
ratio on both ImageNet-1K and ImageNet-21K. The code and pruned datasets are
available at https://github.com/BAAI-DCAI/Dataset-Pruning.
- Abstract(参考訳): 画像分類などの多くの学習タスクの最先端は、より大きなデータセットを収集し、その上でより大きなモデルをトレーニングすることで実現される。
その結果、計算コストの増大は達成不可能になりつつある。
本稿では,大規模データセットを創出する方法を考察し,非許容性能低下を伴う高度な深層モデルのトレーニングのための情報サブセットを作成する。
本研究では,予測の不確かさとトレーニングダイナミクスの両方を探索し,簡易かつ効果的なデータセットプラニング手法を提案する。
我々の知る限り、これは大規模なデータセット、すなわち ImageNet-1K と ImageNet-21K、および高度なモデル、すなわち Swin Transformer と ConvNeXt でデータセットプルーニングを研究する最初の研究である。
その結果,本手法は画像Net-1Kと画像Net-21Kの両方で75%のロスレス圧縮比が得られることがわかった。
コードはhttps://github.com/BAAI-DCAI/Dataset-Pruning.comで公開されている。
関連論文リスト
- Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [92.84248365953216]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Dataset Distillation in Large Data Era [31.758821805424393]
従来の224$times$224の入力解像度で、フルイメージNet-1K/21Kなどの大規模データセットを蒸留する方法を示す。
提案手法は,ImageNet-1K/21Kにおいて,現在の最先端技術よりも4%以上精度が高いことを示す。
論文 参考訳(メタデータ) (2023-11-30T18:59:56Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。