論文の概要: Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling
- arxiv url: http://arxiv.org/abs/2111.01004v1
- Date: Mon, 1 Nov 2021 15:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:46:11.807688
- Title: Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling
- Title(参考訳): オープンワールドサンプリングによる種子不均衡データのコントラスト学習の改善
- Authors: Ziyu Jiang, Tianlong Chen, Ting Chen, Zhangyang Wang
- Abstract要約: 我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
- 参考スコア(独自算出の注目度): 96.8742582581744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning approaches have achieved great success in learning
visual representations with few labels of the target classes. That implies a
tantalizing possibility of scaling them up beyond a curated "seed" benchmark,
to incorporating more unlabeled images from the internet-scale external sources
to enhance its performance. However, in practice, larger amount of unlabeled
data will require more computing resources due to the bigger model size and
longer training needed. Moreover, open-world unlabeled data usually follows an
implicit long-tail class or attribute distribution, many of which also do not
belong to the target classes. Blindly leveraging all unlabeled data hence can
lead to the data imbalance as well as distraction issues. This motivates us to
seek a principled approach to strategically select unlabeled data from an
external source, in order to learn generalizable, balanced and diverse
representations for relevant classes. In this work, we present an open-world
unlabeled data sampling framework called Model-Aware K-center (MAK), which
follows three simple principles: (1) tailness, which encourages sampling of
examples from tail classes, by sorting the empirical contrastive loss
expectation (ECLE) of samples over random data augmentations; (2) proximity,
which rejects the out-of-distribution outliers that may distract training; and
(3) diversity, which ensures diversity in the set of sampled examples.
Empirically, using ImageNet-100-LT (without labels) as the seed dataset and two
"noisy" external data sources, we demonstrate that MAK can consistently improve
both the overall representation quality and the class balancedness of the
learned features, as evaluated via linear classifier evaluation on full-shot
and few-shot settings. The code is available at:
\url{https://github.com/VITA-Group/MAK
- Abstract(参考訳): 対照的な学習アプローチは、ターゲットクラスのラベルがほとんどない視覚表現の学習において大きな成功を収めた。
これは、インターネット規模の外部ソースからのラベルなしイメージをより多く取り入れて、そのパフォーマンスを向上させるという、キュレートされた"シード"ベンチマークを超えてそれらをスケールアップする可能性を示すものだ。
しかし、実際には、より大きなモデルサイズとより長いトレーニングを必要とするため、ラベルのないデータが大量に必要となる。
さらに、open-world unlabeledデータは、通常、暗黙のlong-tailクラスまたは属性分布に従うが、その多くはターゲットクラスに属しない。
したがって、ラベルのないデータをすべて盲目的に活用すれば、データの不均衡と邪魔になる可能性がある。
このことは、関連するクラスに対して一般化可能でバランスの取れた多様な表現を学ぶために、外部ソースからラベルのないデータを戦略的に選択する原則的なアプローチを模索する動機となっている。
本研究では,(1)無作為データ拡張によるサンプルの実証的コントラスト損失期待(ECLE)のソートによるテールクラスからのサンプルのサンプリングを促進するテールネス,(2)学習を妨げかねないアウトリーチを拒否する近接性,(3)サンプルの集合における多様性を保証するダイバーシティの3つの簡単な原則に従う,MAK(Model-Aware K-center)と呼ばれるオープンワールドなラベル付きデータサンプリングフレームワークを提案する。
実験では,ImageNet-100-LT(ラベルなし)をシードデータセットと2つの"ノイズ"外部データソースとして使用することにより,MAKは,フルショット設定と少数ショット設定の線形分類器評価により,学習した機能の全体的な表現品質とクラスバランス性の両方を一貫して改善できることを示した。
コードは以下の通り。 \url{https://github.com/VITA-Group/MAK
関連論文リスト
- Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition [50.61991746981703]
現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して高品質な擬似ラベルに依存している。
本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。
我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。
論文 参考訳(メタデータ) (2024-10-08T15:06:10Z) - DatasetEquity: Are All Samples Created Equal? In The Quest For Equity
Within Datasets [4.833815605196965]
本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。
深い知覚埋め込みとクラスタリングを用いて、画像の外観に基づいてサンプル確率を計算する。
次に、これらの可能性を使って、提案された$bf Generalized Focal Loss$関数で、トレーニング中にサンプルを異なる重さで測定する。
論文 参考訳(メタデータ) (2023-08-19T02:11:49Z) - Exploring the Boundaries of Semi-Supervised Facial Expression Recognition using In-Distribution, Out-of-Distribution, and Unconstrained Data [23.4909421082857]
表情認識(FER)における最新の半教師あり手法11について検討する。
本研究は,非流通,アウト・オブ・ディストリビューション,制約のない,非常に小さなデータからの半教師付き学習を対象とする。
ラベル付きサンプルの数が等しいため、半教師付き学習は教師付き学習よりも大幅に改善される。
論文 参考訳(メタデータ) (2023-06-02T01:40:08Z) - A soft nearest-neighbor framework for continual semi-supervised learning [35.957577587090604]
本稿では,全てのデータサンプルがラベル付けされていない連続的半教師付き学習手法を提案する。
我々は、最も近い隣人の力を利用して、特徴空間を非線形に分割し、基礎となるデータ分布を柔軟にモデル化する。
提案手法は,低解像度画像と高解像度画像の両方で良好に動作し,より複雑なデータセットにシームレスにスケールする。
論文 参考訳(メタデータ) (2022-12-09T20:03:59Z) - Constructing Balance from Imbalance for Long-tailed Image Recognition [50.6210415377178]
多数派(頭)クラスと少数派(尾)クラスの不均衡は、データ駆動のディープニューラルネットワークを著しく歪ませる。
従来の手法では、データ分散、特徴空間、モデル設計の観点からデータ不均衡に対処していた。
ラベル空間を段階的に調整し,ヘッドクラスとテールクラスを分割することで,簡潔なパラダイムを提案する。
提案モデルでは,特徴評価手法も提供し,長期的特徴学習の道を開く。
論文 参考訳(メタデータ) (2022-08-04T10:22:24Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - OpenMatch: Open-set Consistency Regularization for Semi-supervised
Learning with Outliers [71.08167292329028]
我々はOpenMatchと呼ばれる新しいオープンセットセミスーパーバイザードラーニング(OSSL)アプローチを提案する。
OpenMatchは、1-vs-all(OVA)分類器に基づいた新規検出とFixMatchを統合する。
3つのデータセットで最先端のパフォーマンスを実現し、CIFAR10の未ラベルデータで見えないアウトリーチを検出する上で、完全な教師付きモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-28T23:57:15Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z) - Instance Credibility Inference for Few-Shot Learning [45.577880041135785]
ほとんどショットラーニングは、カテゴリごとに非常に限られたトレーニングデータを持つ新しいオブジェクトを認識することを目的としていない。
本稿では,未ラベルのインスタンスの分散サポートを数発の学習に活用するために,ICI (Instance Credibility Inference) と呼ばれる単純な統計手法を提案する。
我々の単純なアプローチは、広く使われている4つのショットラーニングベンチマークデータセットに基づいて、最先端の新たなデータセットを確立することができる。
論文 参考訳(メタデータ) (2020-03-26T12:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。