論文の概要: Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach
- arxiv url: http://arxiv.org/abs/2405.15613v2
- Date: Fri, 28 Jun 2024 09:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 21:05:30.283771
- Title: Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach
- Title(参考訳): 自己教師付き学習のための自動データキュレーション:クラスタリングに基づくアプローチ
- Authors: Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski,
- Abstract要約: 自己教師付き事前学習のための高品質データセットの自動キュレーションの問題点を考察する。
これらの基準をすべて満たしたクラスタリングに基づく手法を提案する。
我々の方法は、大規模で多様なデータリポジトリ上で、$k$-meansの連続的かつ階層的なアプリケーションを含む。
- 参考スコア(独自算出の注目度): 36.47860223750303
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised features are the cornerstone of modern machine learning systems. They are typically pre-trained on data collections whose construction and curation typically require extensive human effort. This manual process has some limitations similar to those encountered in supervised learning, e.g., the crowd-sourced selection of data is costly and time-consuming, preventing scaling the dataset size. In this work, we consider the problem of automatic curation of high-quality datasets for self-supervised pre-training. We posit that such datasets should be large, diverse and balanced, and propose a clustering-based approach for building ones satisfying all these criteria. Our method involves successive and hierarchical applications of $k$-means on a large and diverse data repository to obtain clusters that distribute uniformly among data concepts, followed by a hierarchical, balanced sampling step from these clusters. Extensive experiments on three different data domains including web-based images, satellite images and text show that features trained on our automatically curated datasets outperform those trained on uncurated data while being on par or better than ones trained on manually curated data. Code is available at https://github.com/facebookresearch/ssl-data-curation.
- Abstract(参考訳): 自己管理機能は、現代の機械学習システムの基盤となっている。
これらは典型的には、構築とキュレーションが広範囲な人的努力を必要とするデータ収集に基づいて事前訓練される。
この手動のプロセスは、教師付き学習で遭遇したいくつかの制限、例えば、クラウドソースによるデータの選択はコストと時間を要するため、データセットサイズをスケールすることができない。
本研究では,自己教師付き事前学習のための高品質データセットの自動キュレーションの問題について考察する。
このようなデータセットは大規模で多様性があり、バランスをとるべきであると仮定し、これらの基準を満たすデータセットを構築するためのクラスタリングベースのアプローチを提案する。
本手法は,大規模かつ多種多様なデータリポジトリ上に$k$-meansを連続的かつ階層的に適用して,データ概念間で均一に分散するクラスタを取得し,次いでこれらのクラスタから階層的でバランスの取れたサンプリングステップを行う。
ウェブベースの画像、衛星画像、テキストを含む3つの異なるデータ領域に関する大規模な実験では、自動キュレートされたデータセットでトレーニングされた機能は、手作業によるキュレートされたデータでトレーニングされたデータよりも、未処理のデータでトレーニングされたデータでトレーニングされたデータよりも優れています。
コードはhttps://github.com/facebookresearch/ssl-data-curationで入手できる。
関連論文リスト
- Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z) - Evaluating and Crafting Datasets Effective for Deep Learning With Data
Maps [0.0]
大規模なデータセットのトレーニングには、過剰なシステムリソースと実現不可能な時間を要することが多い。
教師付き学習では、大規模なデータセットはサンプルを手動でラベル付けするのにより多くの時間を必要とする。
そこで本研究では,初期のトレーニングセッションの後に,分散モデルの精度に匹敵する精度で,より小さなデータセットをキュレートする手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T03:30:18Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Learning a Self-Expressive Network for Subspace Clustering [15.096251922264281]
本稿では,データ表現の自己表現を学習するために,適切に設計されたニューラルネットワークを用いた,自己表現型ネットワーク(SENet)と呼ばれる,サブスペースクラスタリングのための新しいフレームワークを提案する。
私たちのSENetは、トレーニングデータに望ましい特性を持つ自己表現係数を学習するだけでなく、サンプル外のデータも処理します。
特に、SENetはMNIST、Fashion MNIST、Extended MNISTで高い競争力を発揮し、CIFAR-10で最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-10-08T18:06:06Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Clustering Time Series Data through Autoencoder-based Deep Learning
Models [1.0499611180329802]
本稿では時系列データをクラスタリングするための2段階の手法を提案する。
まず、ラベルを作成するために、与えられた時系列データの特徴を利用する手法を紹介する。
次に、自動エンコーダに基づくディープラーニングモデルを構築し、時系列データの既知の特徴と隠れた特徴の両方を学習し、モデル化する。
論文 参考訳(メタデータ) (2020-04-11T18:51:13Z) - Unshuffling Data for Improved Generalization [65.57124325257409]
トレーニングディストリビューションを越えた一般化は、マシンラーニングにおける中核的な課題である。
本研究では,複数の学習環境として扱われる非d.d.サブセットにデータを分割することで,アウト・オブ・ディストリビューションの一般化を向上したモデル学習を導出できることを示す。
論文 参考訳(メタデータ) (2020-02-27T03:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。