論文の概要: On the Effectiveness of Out-of-Distribution Data in Self-Supervised
Long-Tail Learning
- arxiv url: http://arxiv.org/abs/2306.04934v1
- Date: Thu, 8 Jun 2023 04:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:12:10.045403
- Title: On the Effectiveness of Out-of-Distribution Data in Self-Supervised
Long-Tail Learning
- Title(参考訳): 自己教師付きロングテール学習におけるアウトオブディストリビューションデータの有効性について
- Authors: Jianhong Bai, Zuozhu Liu, Hualiang Wang, Jin Hao, Yang Feng, Huanpeng
Chu, Haoji Hu
- Abstract要約: 我々は、長期学習(COLT)のためのOODデータを用いたコントラストを提案する。
我々はSSL長期学習におけるOODサンプルの対直感的有用性を実証的に同定した。
提案手法は,長い尾のデータセット上でのSSLの性能を大きなマージンで大幅に向上させる。
- 参考スコア(独自算出の注目度): 15.276356824489431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though Self-supervised learning (SSL) has been widely studied as a promising
technique for representation learning, it doesn't generalize well on
long-tailed datasets due to the majority classes dominating the feature space.
Recent work shows that the long-tailed learning performance could be boosted by
sampling extra in-domain (ID) data for self-supervised training, however,
large-scale ID data which can rebalance the minority classes are expensive to
collect. In this paper, we propose an alternative but easy-to-use and effective
solution, Contrastive with Out-of-distribution (OOD) data for Long-Tail
learning (COLT), which can effectively exploit OOD data to dynamically
re-balance the feature space. We empirically identify the counter-intuitive
usefulness of OOD samples in SSL long-tailed learning and principally design a
novel SSL method. Concretely, we first localize the `head' and `tail' samples
by assigning a tailness score to each OOD sample based on its neighborhoods in
the feature space. Then, we propose an online OOD sampling strategy to
dynamically re-balance the feature space. Finally, we enforce the model to be
capable of distinguishing ID and OOD samples by a distribution-level supervised
contrastive loss. Extensive experiments are conducted on various datasets and
several state-of-the-art SSL frameworks to verify the effectiveness of the
proposed method. The results show that our method significantly improves the
performance of SSL on long-tailed datasets by a large margin, and even
outperforms previous work which uses external ID data. Our code is available at
https://github.com/JianhongBai/COLT.
- Abstract(参考訳): 自己教師付き学習(SSL)は表現学習の有望なテクニックとして広く研究されているが、多くのクラスが特徴空間を支配しているため、長い尾のデータセットではうまく一般化されていない。
近年の研究では、自己教師型トレーニングのためのドメイン内データ(ID)をサンプリングすることで、長期学習性能を高めることができるが、マイノリティクラスの再バランスが可能な大規模IDデータ収集は高価である。
本稿では,OODデータを効果的に活用し,特徴空間を動的に再バランスさせる,COLT(Contrastive with Out-of-Distribution (OOD) Data for Long-Tail Learning)を提案する。
SSL長鎖学習におけるOODサンプルの対直感的有用性を実証的に同定し,新しいSSL手法を設計する。
具体的には,まず,特徴空間内の周辺領域に基づいて,各OODサンプルにテールネススコアを割り当て,'head' と 'tail' のサンプルをローカライズする。
そこで我々は,機能空間を動的に再バランスさせるオンラインOODサンプリング戦略を提案する。
最後に,IDとOODのサンプルを分布レベルの教師付きコントラスト損失で識別できるモデルを適用した。
提案手法の有効性を検証するため,様々なデータセットと最先端SSLフレームワークを用いて大規模な実験を行った。
以上の結果から,提案手法は長期化データセットにおけるSSLの性能を大幅に向上させ,外部IDデータを用いた従来の処理よりも優れていた。
私たちのコードはhttps://github.com/jianhongbai/coltで利用可能です。
関連論文リスト
- On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - EAT: Towards Long-Tailed Out-of-Distribution Detection [55.380390767978554]
本稿では,長い尾を持つOOD検出の課題に対処する。
主な困難は、尾クラスに属するサンプルとOODデータを区別することである。
本稿では,(1)複数の禁制クラスを導入して分布内クラス空間を拡大すること,(2)コンテキストリッチなOODデータに画像をオーバーレイすることでコンテキスト限定のテールクラスを拡大すること,の2つの簡単な考え方を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:47:13Z) - Exploration and Exploitation of Unlabeled Data for Open-Set
Semi-Supervised Learning [130.56124475528475]
半教師付き学習 (SSL) において, 未ラベルデータには, 内分布 (ID) と外分布 (OOD) の両方を含む, オープンセット SSL という複雑なシナリオに対処する。
提案手法は, 未ラベルデータにIDサンプルが完全に欠落している場合でも, 既存のSSL方式を改良する。
論文 参考訳(メタデータ) (2023-06-30T14:25:35Z) - Semi-supervised Learning with Deterministic Labeling and Large Margin
Projection [25.398314796157933]
ラベル付きデータの集中度と多様性は、半教師付き学習(SSL)の性能に非常に影響を与える
本研究は,OCF構造に基づいて認識される最小の安定かつ最も分散したデータに対して,カーネル化された大規模マージン計量を学習することを目的とする。
OLFに基づくSSLモデルの精度と性能の安定性は, ベースライン法に比べて大幅に向上した。
論文 参考訳(メタデータ) (2022-08-17T04:09:35Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - No Shifted Augmentations (NSA): compact distributions for robust
self-supervised Anomaly Detection [4.243926243206826]
教師なし異常検出(AD)は正規化の概念を構築し、分布内(ID)と分布外(OOD)データを区別する必要がある。
我々は,ID特徴分布のエンフ幾何学的コンパクト性によって,外乱の分離や検出が容易になるかを検討する。
我々は,IDデータのコンパクトな分布を学習可能にする自己教師型特徴学習ステップに,新たなアーキテクチャ変更を提案する。
論文 参考訳(メタデータ) (2022-03-19T15:55:32Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning [54.85397562961903]
ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。
我々は、Open-set SSLと呼ばれるより複雑な新しいシナリオに対処する。
提案手法は,OOD試料の効果を除去し,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-22T10:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。