論文の概要: Curator: Creating Large-Scale Curated Labelled Datasets using
Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2212.14099v1
- Date: Wed, 28 Dec 2022 21:22:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:32:26.551415
- Title: Curator: Creating Large-Scale Curated Labelled Datasets using
Self-Supervised Learning
- Title(参考訳): Curator: 自己監督型学習による大規模ラベル付きデータセットの作成
- Authors: Tarun Narayanan, Ajay Krishnan, Anirudh Koul, Siddha Ganju
- Abstract要約: コードなしのエンドツーエンドパイプラインであるCuratorは、ラベル付きデータセットを徹底的にキュレートするのに要する時間を劇的に短縮する。
キュレーターは、自己スーパービジョン、スケーラブルな近接探索、画像表現の学習と識別のためのアクティブラーニングを組み合わせることで、大量の未学習データを検索することができる。
- 参考スコア(独自算出の注目度): 0.38233569758620045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applying Machine learning to domains like Earth Sciences is impeded by the
lack of labeled data, despite a large corpus of raw data available in such
domains. For instance, training a wildfire classifier on satellite imagery
requires curating a massive and diverse dataset, which is an expensive and
time-consuming process that can span from weeks to months. Searching for
relevant examples in over 40 petabytes of unlabelled data requires researchers
to manually hunt for such images, much like finding a needle in a haystack. We
present a no-code end-to-end pipeline, Curator, which dramatically minimizes
the time taken to curate an exhaustive labeled dataset. Curator is able to
search massive amounts of unlabelled data by combining self-supervision,
scalable nearest neighbor search, and active learning to learn and
differentiate image representations. The pipeline can also be readily applied
to solve problems across different domains. Overall, the pipeline makes it
practical for researchers to go from just one reference image to a
comprehensive dataset in a diminutive span of time.
- Abstract(参考訳): 地球科学のような分野に機械学習を適用することは、そのような領域で利用可能な大量の生データのコーパスにもかかわらず、ラベル付きデータの欠如によって妨げられる。
例えば、衛星画像上の山火事分類器の訓練には、数週間から数ヶ月にわたる高価で時間を要する膨大なデータセットのキュレーションが必要となる。
40ペタバイト以上のデータから関連するサンプルを探すには、干し草の山で針を見つけるような手作業で画像を探す必要がある。
コードなしのエンドツーエンドパイプラインであるCuratorは、ラベル付きデータセットの完全キュレートに要する時間を劇的に短縮する。
キュレーターは、自己スーパービジョン、スケーラブルな近接探索、画像表現の学習と識別のためのアクティブラーニングを組み合わせることで、大量の未学習データを検索することができる。
このパイプラインは、さまざまなドメインの問題を解決するためにも簡単に適用できる。
全体として、パイプラインは、研究者が1つの参照イメージから、小さな時間内に包括的なデータセットに移行するのを実用的なものにします。
関連論文リスト
- Selecting which Dense Retriever to use for Zero-Shot Search [34.04158960512326]
本稿では,ラベルを使用できない新しいコレクションを検索する際に使用する高密度検索モデルを選択するための新しい問題を提案する。
教師なし性能評価における最近の研究にインスパイアされた手法は,高能率検索器の選択に有効ではないことを示す。
論文 参考訳(メタデータ) (2023-09-18T00:01:24Z) - Spatiotemporal Classification with limited labels using Constrained
Clustering for large datasets [22.117238467818623]
分離可能な表現は、より良い分類能力を持つ教師付きモデルにつながる可能性がある。
ラベルの少ない制約付き損失を使って、より優れた表現を学べる方法を示します。
我々は,ラベルの少ない手法を用いて,ラベルのないデータから新しいラベル付きサンプルを抽出し,より優れた分類につながる教師付き手法を拡張できることを示す。
論文 参考訳(メタデータ) (2022-10-14T05:05:22Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Streaming Self-Training via Domain-Agnostic Unlabeled Images [62.57647373581592]
視覚認識モデル学習の過程を民主化することを目的としたストリーミング自己学習(SST)を提案する。
SSTの鍵となるのは、(1)ドメインに依存しない未ラベル画像により、追加の知識や監督なしにいくつかのラベル付き例でより良いモデルを学ぶことができ、(2)学習は継続的なプロセスであり、学習更新のスケジュールを構築することで行うことができる。
論文 参考訳(メタデータ) (2021-04-07T17:58:39Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Robust Image Retrieval-based Visual Localization using Kapture [10.249293519246478]
視覚的ローカライゼーションのための多用途パイプラインを提案する。
8つの公開データセットで評価し、それらが上位にランクされ、その多くが上位にランクされている。
今後の研究を促進するため、我々は、BSDライセンス下でオープンソースであるKaptureフォーマットで、コード、モデル、およびすべてのデータセットをリリースする。
論文 参考訳(メタデータ) (2020-07-27T21:10:35Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z) - Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval [9.922132565411664]
大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
論文 参考訳(メタデータ) (2020-04-03T22:52:17Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。