論文の概要: SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification
- arxiv url: http://arxiv.org/abs/2410.05057v1
- Date: Mon, 7 Oct 2024 14:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:38:19.105643
- Title: SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification
- Title(参考訳): SELECT:画像分類のための大規模データキュレーション戦略ベンチマーク
- Authors: Benjamin Feuer, Jiawei Xu, Niv Cohen, Patrick Yubeaton, Govind Mittal, Chinmay Hegde,
- Abstract要約: 我々は、画像分類のためのデータキュレーション戦略の大規模なベンチマークであるSELECTを紹介する。
我々のデータセットは、ImageNet-1K自体の約5つの新しいトレーニングデータシフトでImageNetを拡張しています。
これらの戦略は特定のタスクに対して非常に競争力があるものの、元のImageNet-1Kデータセットを組み立てるのに使用されるキュレーション戦略がゴールドスタンダードのままであることを示す。
- 参考スコア(独自算出の注目度): 25.999103910792165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data curation is the problem of how to collect and organize samples into a dataset that supports efficient learning. Despite the centrality of the task, little work has been devoted towards a large-scale, systematic comparison of various curation methods. In this work, we take steps towards a formal evaluation of data curation strategies and introduce SELECT, the first large-scale benchmark of curation strategies for image classification. In order to generate baseline methods for the SELECT benchmark, we create a new dataset, ImageNet++, which constitutes the largest superset of ImageNet-1K to date. Our dataset extends ImageNet with 5 new training-data shifts, each approximately the size of ImageNet-1K itself, and each assembled using a distinct curation strategy. We evaluate our data curation baselines in two ways: (i) using each training-data shift to train identical image classification models from scratch (ii) using the data itself to fit a pretrained self-supervised representation. Our findings show interesting trends, particularly pertaining to recent methods for data curation such as synthetic data generation and lookup based on CLIP embeddings. We show that although these strategies are highly competitive for certain tasks, the curation strategy used to assemble the original ImageNet-1K dataset remains the gold standard. We anticipate that our benchmark can illuminate the path for new methods to further reduce the gap. We release our checkpoints, code, documentation, and a link to our dataset at https://github.com/jimmyxu123/SELECT.
- Abstract(参考訳): データキュレーションは、効率的な学習をサポートするデータセットにサンプルを収集、整理する方法の問題である。
タスクの中心性にもかかわらず、様々なキュレーション手法を大規模かつ体系的に比較する作業はほとんど行われていない。
本研究では、データキュレーション戦略の正式な評価に向けて一歩踏み出し、画像分類のためのキュレーション戦略の大規模なベンチマークであるSELECTを紹介する。
SELECTベンチマークのベースラインメソッドを生成するために、これまでで最大のImageNet-1Kスーパーセットを構成する新しいデータセットであるImageNet++を作成します。
データセットはImageNetを5つの新しいトレーニングデータシフトで拡張しています。
データキュレーションのベースラインを2つの方法で評価します。
(i)各トレーニングデータシフトを用いて同一画像分類モデルをスクラッチから訓練する
(ii) 事前訓練された自己教師型表現にデータ自体を適合させる。
以上の結果から,CLIP埋め込みに基づく合成データ生成や検索などの最近のデータキュレーション手法に関する興味深い傾向が示唆された。
これらの戦略は特定のタスクに対して非常に競争力があるものの、元のImageNet-1Kデータセットを組み立てるのに使用されるキュレーション戦略がゴールドスタンダードのままであることを示す。
我々は,我々のベンチマークが新たな方法の道筋を照らし,ギャップをさらに減らすことを期待する。
私たちは、チェックポイント、コード、ドキュメント、データセットへのリンクをhttps://github.com/jimmyxu123/SELECTでリリースしています。
関連論文リスト
- Vision-Language Dataset Distillation [26.886260846439612]
トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。
重要な課題は、ビジョン言語データセットが独立したクラスのセットを持っていないことだ。
提案手法は, コントラスト式で画像とテキストのペアを共同蒸留する。
論文 参考訳(メタデータ) (2023-08-15T03:22:40Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文 参考訳(メタデータ) (2022-01-12T20:28:34Z) - Budget-aware Few-shot Learning via Graph Convolutional Network [56.41899553037247]
本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,数ショット学習の課題に取り組む。
数ショット分類における一般的な問題設定は、データラベルの取得においてランダムサンプリング戦略を前提としている。
そこで我々は,新しい対象カテゴリーの学習を目的とした,予算に配慮した数発の学習問題を新たに導入する。
論文 参考訳(メタデータ) (2022-01-07T02:46:35Z) - A Simple Baseline for Low-Budget Active Learning [15.54250249254414]
簡単なk平均クラスタリングアルゴリズムは、低予算で最先端のアクティブな学習方法より優れていることを示す。
この方法は,画像分類に基づく低予算能動学習のための単純なベースラインとして利用することができる。
論文 参考訳(メタデータ) (2021-10-22T19:36:56Z) - Hierarchical Self-Supervised Learning for Medical Image Segmentation
Based on Multi-Domain Data Aggregation [23.616336382437275]
医用画像分割のための階層型自己監督学習(HSSL)を提案する。
まず、いくつかの医学的課題からデータセットを収集し、自己教師付きでネットワークを事前訓練し、最後にラベル付きデータに微調整します。
スクラッチから学習するのに比べ、新しい手法は様々なタスクにおいてより良いパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2021-07-10T18:17:57Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Large-scale Unsupervised Semantic Segmentation [163.3568726730319]
本稿では, 大規模無教師付きセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。
ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-06T15:02:11Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。