論文の概要: Similarity Search for Efficient Active Learning and Search of Rare
Concepts
- arxiv url: http://arxiv.org/abs/2007.00077v2
- Date: Thu, 22 Jul 2021 16:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:19:31.640807
- Title: Similarity Search for Efficient Active Learning and Search of Rare
Concepts
- Title(参考訳): 効率的な能動学習のための類似性探索と希少概念の探索
- Authors: Cody Coleman, Edward Chou, Julian Katz-Samuels, Sean Culatana, Peter
Bailis, Alexander C. Berg, Robert Nowak, Roshan Sumbaly, Matei Zaharia, I.
Zeki Yalniz
- Abstract要約: 我々は,現在ラベル付けされている集合の近傍にラベル付けする候補プールを制限することにより,能動的学習と探索法の計算効率を向上する。
提案手法は,従来のグローバルアプローチと同じような平均精度とリコールを実現し,選択の計算コストを最大3桁まで削減し,Webスケールのアクティブラーニングを可能にした。
- 参考スコア(独自算出の注目度): 78.5475382904847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many active learning and search approaches are intractable for large-scale
industrial settings with billions of unlabeled examples. Existing approaches
search globally for the optimal examples to label, scaling linearly or even
quadratically with the unlabeled data. In this paper, we improve the
computational efficiency of active learning and search methods by restricting
the candidate pool for labeling to the nearest neighbors of the currently
labeled set instead of scanning over all of the unlabeled data. We evaluate
several selection strategies in this setting on three large-scale computer
vision datasets: ImageNet, OpenImages, and a de-identified and aggregated
dataset of 10 billion images provided by a large internet company. Our approach
achieved similar mean average precision and recall as the traditional global
approach while reducing the computational cost of selection by up to three
orders of magnitude, thus enabling web-scale active learning.
- Abstract(参考訳): アクティブラーニングや検索のアプローチの多くは、何十億というラベルなしの例を持つ大規模産業環境では難解である。
既存のアプローチは、ラベルのないデータで線形あるいは二次的にラベル付け、スケーリングする最適な例をグローバルに検索する。
本稿では,ラベル付きデータをすべてスキャンするのではなく,現在ラベル付き集合の最も近い近傍にラベル付けする候補プールを制限し,アクティブラーニングと探索法の計算効率を向上させる。
本研究では,3つの大規模コンピュータビジョンデータセット(imagenet, openimages, de-idified and aggregated dataset of 100 billion images provided a large internet company)における選択戦略を評価する。
提案手法は,従来のグローバルアプローチと同じような平均精度とリコールを実現し,選択の計算コストを最大3桁まで削減し,Webスケールのアクティブラーニングを可能にした。
関連論文リスト
- Learning from the Best: Active Learning for Wireless Communications [9.523381807291049]
アクティブな学習アルゴリズムは、ラベル付けされていないデータセットの中で最も重要で情報に富んだサンプルを特定し、完全なデータセットではなく、これらのサンプルのみをラベル付けする。
本稿では, ディープラーニングに基づくmmWaveビーム選択のケーススタディとして, 包括探索に基づく計算集約アルゴリズムを用いてラベル付けを行う。
この結果から,クラス不均衡データセットに対するアクティブな学習アルゴリズムを用いることで,データセットのラベル付けオーバーヘッドを最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-01-23T12:21:57Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Two-Step Active Learning for Instance Segmentation with Uncertainty and
Diversity Sampling [20.982992381790034]
本研究では,不確実性に基づくサンプリングと多様性に基づくサンプリングを統合したポストホック能動学習アルゴリズムを提案する。
提案アルゴリズムは単純で実装が容易なだけでなく,様々なデータセットに対して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-09-28T03:40:30Z) - Cold PAWS: Unsupervised class discovery and addressing the cold-start
problem for semi-supervised learning [0.30458514384586394]
本稿では, 自己教師付き学習, クラスタリング, 多様体学習技術に基づく新しい手法を提案する。
我々は、CIFAR10、Imagenette、DeepWeeds、EuroSATなどの公開データセットを使って、我々のアプローチをテストする。
文献における他の手法と比較して,より単純なアプローチで検討したデータセットに対して,優れた性能が得られる。
論文 参考訳(メタデータ) (2023-05-17T09:17:59Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Budget-aware Few-shot Learning via Graph Convolutional Network [56.41899553037247]
本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,数ショット学習の課題に取り組む。
数ショット分類における一般的な問題設定は、データラベルの取得においてランダムサンプリング戦略を前提としている。
そこで我々は,新しい対象カテゴリーの学習を目的とした,予算に配慮した数発の学習問題を新たに導入する。
論文 参考訳(メタデータ) (2022-01-07T02:46:35Z) - Big Self-Supervised Models are Strong Semi-Supervised Learners [116.00752519907725]
ImageNet上での半教師あり学習に驚くほど効果的であることを示す。
我々のアプローチの重要な要素は、事前訓練と微調整において大きな(深度と広度)ネットワークを使用することである。
ラベルが少なくなればなるほど、より大きなネットワークから、このアプローチ(ラベル付きデータのタスクに依存しない使用)が恩恵を受けることが分かっています。
論文 参考訳(メタデータ) (2020-06-17T17:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。