Fugu-MT 論文翻訳(概要): Large-scale Dataset Pruning with Dynamic Uncertainty

論文の概要: Large-scale Dataset Pruning with Dynamic Uncertainty

arxiv url: http://arxiv.org/abs/2306.05175v1
Date: Thu, 8 Jun 2023 13:14:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 14:26:52.344256
Title: Large-scale Dataset Pruning with Dynamic Uncertainty
Title（参考訳）: 動的不確実性を考慮した大規模データセットプラニング
Authors: Muyang He, Shuo Yang, Tiejun Huang, Bo Zhao
Abstract要約: 画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。我々の知る限り、これは大規模なデータセット、すなわち ImageNet-1K と ImageNet-21K、および高度なモデル、すなわち Swin Transformer と ConvNeXt でデータセットプルーニングを研究する最初の研究である。
参考スコア（独自算出の注目度）: 23.113720961414614
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The state of the art of many learning tasks, e.g., image classification, is advanced by collecting larger datasets and then training larger models on them. As the outcome, the increasing computational cost is becoming unaffordable. In this paper, we investigate how to prune the large-scale datasets, and thus produce an informative subset for training sophisticated deep models with negligible performance drop. We propose a simple yet effective dataset pruning method by exploring both the prediction uncertainty and training dynamics. To our knowledge, this is the first work to study dataset pruning on large-scale datasets, i.e., ImageNet-1K and ImageNet-21K, and advanced models, i.e., Swin Transformer and ConvNeXt. Extensive experimental results indicate that our method outperforms the state of the art and achieves 75% lossless compression ratio on both ImageNet-1K and ImageNet-21K. The code and pruned datasets are available at https://github.com/BAAI-DCAI/Dataset-Pruning.
Abstract（参考訳）: 画像分類などの多くの学習タスクの最先端は、より大きなデータセットを収集し、その上でより大きなモデルをトレーニングすることで実現される。その結果、計算コストの増大は達成不可能になりつつある。本稿では,大規模データセットを創出する方法を考察し,非許容性能低下を伴う高度な深層モデルのトレーニングのための情報サブセットを作成する。本研究では,予測の不確かさとトレーニングダイナミクスの両方を探索し,簡易かつ効果的なデータセットプラニング手法を提案する。我々の知る限り、これは大規模なデータセット、すなわち ImageNet-1K と ImageNet-21K、および高度なモデル、すなわち Swin Transformer と ConvNeXt でデータセットプルーニングを研究する最初の研究である。その結果,本手法は画像Net-1Kと画像Net-21Kの両方で75%のロスレス圧縮比が得られることがわかった。コードはhttps://github.com/BAAI-DCAI/Dataset-Pruning.comで公開されている。

関連論文リスト

Lightweight Dataset Pruning without Full Training via Example Difficulty and Prediction Uncertainty [9.749638953163391]
早期のトレーニング段階から重要なサンプルを特定するために,難易度と不確実性を考慮した軽量度スコア(DUAL)を導入する。また, 極端破砕時の破滅的精度低下に対処するために, ベータ分布を用いた比適応サンプリングを提案する。
論文参考訳（メタデータ） (2025-02-10T01:18:40Z)
SCAN: Bootstrapping Contrastive Pre-training for Data Efficiency [10.555957282859]
本稿では,新しい動的ブートストラップ・データセット・プルーニング手法を提案する。データ準備の後にデータセットの突然変異操作を行い、どちらも反復的な更新と動的更新を行う。大規模画像テキストペアデータセットの7つのCLIPモデルと,ImageNetデータセットの2つのMoCoモデルを個別に事前トレーニングし,合計16の事前トレーニングモデルを得た。
論文参考訳（メタデータ） (2024-11-14T01:53:17Z)
Effective pruning of web-scale datasets based on complexity of concept clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文参考訳（メタデータ） (2024-01-09T14:32:24Z)
A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文参考訳（メタデータ） (2023-11-03T17:29:46Z)
Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。 DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文参考訳（メタデータ） (2023-08-21T07:24:29Z)
Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。具体的には、Webで収集したCoyo-700Mデータセットを利用する。我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文参考訳（メタデータ） (2023-05-24T15:33:46Z)
Where Should I Spend My FLOPS? Efficiency Evaluations of Visual Pre-training Methods [29.141145775835106]
固定されたFLOP予算が与えられた場合、代表的な視覚的タスクに対して高い正確性を得るために最適なデータセット、モデル、そして(自己監督的な)トレーニング方法は何ですか? 5つの大規模データセット(JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, COCO)と6つの事前学習方法(CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised)を検討した。本稿の結果は,自己管理手法が本質的に大規模で未処理なデータにスケールする,という一般的な仮定に疑問を投げかけるものである。
論文参考訳（メタデータ） (2022-09-30T17:04:55Z)
Self-Supervised Pre-Training for Transformer-Based Person Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文参考訳（メタデータ） (2021-11-23T18:59:08Z)
Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1～3%改善する。
論文参考訳（メタデータ） (2020-11-20T06:16:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。