論文の概要: Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling
- arxiv url: http://arxiv.org/abs/2111.01004v1
- Date: Mon, 1 Nov 2021 15:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:46:11.807688
- Title: Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling
- Title(参考訳): オープンワールドサンプリングによる種子不均衡データのコントラスト学習の改善
- Authors: Ziyu Jiang, Tianlong Chen, Ting Chen, Zhangyang Wang
- Abstract要約: 我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
- 参考スコア(独自算出の注目度): 96.8742582581744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning approaches have achieved great success in learning
visual representations with few labels of the target classes. That implies a
tantalizing possibility of scaling them up beyond a curated "seed" benchmark,
to incorporating more unlabeled images from the internet-scale external sources
to enhance its performance. However, in practice, larger amount of unlabeled
data will require more computing resources due to the bigger model size and
longer training needed. Moreover, open-world unlabeled data usually follows an
implicit long-tail class or attribute distribution, many of which also do not
belong to the target classes. Blindly leveraging all unlabeled data hence can
lead to the data imbalance as well as distraction issues. This motivates us to
seek a principled approach to strategically select unlabeled data from an
external source, in order to learn generalizable, balanced and diverse
representations for relevant classes. In this work, we present an open-world
unlabeled data sampling framework called Model-Aware K-center (MAK), which
follows three simple principles: (1) tailness, which encourages sampling of
examples from tail classes, by sorting the empirical contrastive loss
expectation (ECLE) of samples over random data augmentations; (2) proximity,
which rejects the out-of-distribution outliers that may distract training; and
(3) diversity, which ensures diversity in the set of sampled examples.
Empirically, using ImageNet-100-LT (without labels) as the seed dataset and two
"noisy" external data sources, we demonstrate that MAK can consistently improve
both the overall representation quality and the class balancedness of the
learned features, as evaluated via linear classifier evaluation on full-shot
and few-shot settings. The code is available at:
\url{https://github.com/VITA-Group/MAK
- Abstract(参考訳): 対照的な学習アプローチは、ターゲットクラスのラベルがほとんどない視覚表現の学習において大きな成功を収めた。
これは、インターネット規模の外部ソースからのラベルなしイメージをより多く取り入れて、そのパフォーマンスを向上させるという、キュレートされた"シード"ベンチマークを超えてそれらをスケールアップする可能性を示すものだ。
しかし、実際には、より大きなモデルサイズとより長いトレーニングを必要とするため、ラベルのないデータが大量に必要となる。
さらに、open-world unlabeledデータは、通常、暗黙のlong-tailクラスまたは属性分布に従うが、その多くはターゲットクラスに属しない。
したがって、ラベルのないデータをすべて盲目的に活用すれば、データの不均衡と邪魔になる可能性がある。
このことは、関連するクラスに対して一般化可能でバランスの取れた多様な表現を学ぶために、外部ソースからラベルのないデータを戦略的に選択する原則的なアプローチを模索する動機となっている。
本研究では,(1)無作為データ拡張によるサンプルの実証的コントラスト損失期待(ECLE)のソートによるテールクラスからのサンプルのサンプリングを促進するテールネス,(2)学習を妨げかねないアウトリーチを拒否する近接性,(3)サンプルの集合における多様性を保証するダイバーシティの3つの簡単な原則に従う,MAK(Model-Aware K-center)と呼ばれるオープンワールドなラベル付きデータサンプリングフレームワークを提案する。
実験では,ImageNet-100-LT(ラベルなし)をシードデータセットと2つの"ノイズ"外部データソースとして使用することにより,MAKは,フルショット設定と少数ショット設定の線形分類器評価により,学習した機能の全体的な表現品質とクラスバランス性の両方を一貫して改善できることを示した。
コードは以下の通り。 \url{https://github.com/VITA-Group/MAK
関連論文リスト
- Boosting Semi-Supervised Learning by Exploiting All Unlabeled Data [21.6350640726058]
半教師付き学習(SSL)は、大きなラベル付きデータセットへの依存を緩和する大きな可能性を秘めているため、大きな注目を集めている。
エントロピー平均損失(EML)と適応負学習(ANL)の2つの新しい手法を提案する。
これらのテクニックをFixMatchと統合し、シンプルながら強力なフレームワークであるFullMatchを開発します。
論文 参考訳(メタデータ) (2023-03-20T12:44:11Z) - A soft nearest-neighbor framework for continual semi-supervised learning [39.3159244946975]
本稿では,全てのデータサンプルがラベル付けされていない連続的半教師付き学習手法を提案する。
我々は、最も近い隣人の力を利用して、特徴空間を非線形に分割し、基礎となるデータ分布を柔軟にモデル化する。
提案手法は,低解像度画像と高解像度画像の両方で良好に動作し,より複雑なデータセットにシームレスにスケールする。
論文 参考訳(メタデータ) (2022-12-09T20:03:59Z) - Dynamic Loss For Robust Learning [13.817940219656032]
本研究は,メタラーニングに基づく動的損失を学習プロセスで自動調整し,長い尾の雑音データから分類器を頑健に学習する手法を提案する。
本研究では,CIFAR-10/100,Animal-10N,ImageNet-LT,Webvisionなど,さまざまな種類のデータバイアスを持つ複数の実世界および合成データセットに対して,最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-11-22T01:48:25Z) - Constructing Balance from Imbalance for Long-tailed Image Recognition [50.6210415377178]
多数派(頭)クラスと少数派(尾)クラスの不均衡は、データ駆動のディープニューラルネットワークを著しく歪ませる。
従来の手法では、データ分散、特徴空間、モデル設計の観点からデータ不均衡に対処していた。
ラベル空間を段階的に調整し,ヘッドクラスとテールクラスを分割することで,簡潔なパラダイムを提案する。
提案モデルでは,特徴評価手法も提供し,長期的特徴学習の道を開く。
論文 参考訳(メタデータ) (2022-08-04T10:22:24Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - OpenMatch: Open-set Consistency Regularization for Semi-supervised
Learning with Outliers [71.08167292329028]
我々はOpenMatchと呼ばれる新しいオープンセットセミスーパーバイザードラーニング(OSSL)アプローチを提案する。
OpenMatchは、1-vs-all(OVA)分類器に基づいた新規検出とFixMatchを統合する。
3つのデータセットで最先端のパフォーマンスを実現し、CIFAR10の未ラベルデータで見えないアウトリーチを検出する上で、完全な教師付きモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-28T23:57:15Z) - Open-World Semi-Supervised Learning [66.90703597468377]
本稿では,従来のクラスを認識するためにモデルを必要とする,新しいオープンワールド半教師付き学習環境を提案する。
データの分類とクラスタ化を同時に行うアプローチであるORCAを提案する。
我々は,ORCAが新しいクラスを正確に発見し,ベンチマーク画像分類データセット上で以前に見られたクラスにサンプルを割り当てることを示した。
論文 参考訳(メタデータ) (2021-02-06T07:11:07Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z) - Instance Credibility Inference for Few-Shot Learning [45.577880041135785]
ほとんどショットラーニングは、カテゴリごとに非常に限られたトレーニングデータを持つ新しいオブジェクトを認識することを目的としていない。
本稿では,未ラベルのインスタンスの分散サポートを数発の学習に活用するために,ICI (Instance Credibility Inference) と呼ばれる単純な統計手法を提案する。
我々の単純なアプローチは、広く使われている4つのショットラーニングベンチマークデータセットに基づいて、最先端の新たなデータセットを確立することができる。
論文 参考訳(メタデータ) (2020-03-26T12:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。