論文の概要: Dataset Awareness is not Enough: Implementing Sample-level Tail Encouragement in Long-tailed Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2410.22883v2
- Date: Fri, 15 Nov 2024 04:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:49.134200
- Title: Dataset Awareness is not Enough: Implementing Sample-level Tail Encouragement in Long-tailed Self-supervised Learning
- Title(参考訳): データセット・アウェアネスは十分ではない:ロングテール自己教師型学習におけるサンプルレベルのタイル・エンコーラメントの実装
- Authors: Haowen Xiao, Guanghui Liu, Xinyi Gao, Yang Li, Fengmao Lv, Jielei Chu,
- Abstract要約: 擬似ラベル情報を利用して動的温度と再重み付け戦略を推進し、自己教師付き長期学習に擬似ラベルを導入する。
我々は,温度パラメータにおける量認識の欠如を分析し,この不足を補うために再重み付けを用いて,サンプルレベルで最適なトレーニングパターンを実現する。
- 参考スコア(独自算出の注目度): 16.110763554788445
- License:
- Abstract: Self-supervised learning (SSL) has shown remarkable data representation capabilities across a wide range of datasets. However, when applied to real-world datasets with long-tailed distributions, performance on multiple downstream tasks degrades significantly. Recently, the community has begun to focus more on self-supervised long-tailed learning. Some works attempt to transfer temperature mechanisms to self-supervised learning or use category-space uniformity constraints to balance the representation of different categories in the embedding space to fight against long-tail distributions. However, most of these approaches focus on the joint optimization of all samples in the dataset or on constraining the category distribution, with little attention given to whether each individual sample is optimally guided during training. To address this issue, we propose Temperature Auxiliary Sample-level Encouragement (TASE). We introduce pseudo-labels into self-supervised long-tailed learning, utilizing pseudo-label information to drive a dynamic temperature and re-weighting strategy. Specifically, We assign an optimal temperature parameter to each sample. Additionally, we analyze the lack of quantity awareness in the temperature parameter and use re-weighting to compensate for this deficiency, thereby achieving optimal training patterns at the sample level. Comprehensive experimental results on six benchmarks across three datasets demonstrate that our method achieves outstanding performance in improving long-tail recognition, while also exhibiting high robustness.
- Abstract(参考訳): 自己教師付き学習(SSL)は、幅広いデータセットで顕著なデータ表現能力を示している。
しかし、長い尾の分布を持つ実世界のデータセットに適用すると、複数の下流タスクのパフォーマンスは大幅に低下する。
最近、コミュニティは自己指導型長期学習に焦点を合わせ始めている。
いくつかの研究は、温度メカニズムを自己教師付き学習に転送したり、カテゴリ空間の均一性制約を用いて、埋め込み空間における異なるカテゴリの表現のバランスを取り、ロングテール分布に対抗しようとする。
しかしながら、これらのアプローチのほとんどは、データセット内の全サンプルの合同最適化やカテゴリ分布の制約に焦点を当てており、各サンプルがトレーニング中に最適にガイドされているかどうかはほとんど注目されていない。
この問題に対処するため,温度補助サンプルレベルエンコーラメント(TASE)を提案する。
擬似ラベル情報を利用して動的温度と再重み付け戦略を推進し、自己教師付き長期学習に擬似ラベルを導入する。
具体的には,各試料に最適温度パラメータを割り当てる。
さらに、温度パラメータにおける量認識の欠如を分析し、この不足を補うために再重み付けを用いて、サンプルレベルで最適なトレーニングパターンを実現する。
3つのデータセットにまたがる6つのベンチマークの総合的な実験結果から,本手法は長距離認識の改善に優れた性能を発揮しつつ,高いロバスト性を示した。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Distribution-Aware Robust Learning from Long-Tailed Data with Noisy Labels [8.14255560923536]
実世界のデータは、しばしば長い尾の分布とラベルノイズを示し、一般化性能を著しく低下させる。
近年の研究では,各クラス内の高信頼度サンプルに基づいて,各クラスのセントロイドを推定するノイズの多いサンプル選択手法に焦点が当てられている。
そこで我々は,分散型サンプル選択・コントラスト学習(DaSC)を提案し,拡張型セントロイドを生成する。
論文 参考訳(メタデータ) (2024-07-23T19:06:15Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - Dynamic Sub-graph Distillation for Robust Semi-supervised Continual
Learning [52.046037471678005]
半教師付き連続学習(SSCL)に焦点をあて、そのモデルが未知のカテゴリを持つ部分ラベル付きデータから徐々に学習する。
半教師付き連続学習のための動的サブグラフ蒸留法(DSGD)を提案する。
論文 参考訳(メタデータ) (2023-12-27T04:40:12Z) - SwiftLearn: A Data-Efficient Training Method of Deep Learning Models
using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。
このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。
我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文 参考訳(メタデータ) (2023-11-25T22:51:01Z) - Temperature Schedules for Self-Supervised Contrastive Methods on
Long-Tail Data [87.77128754860983]
本稿では,ロングテールデータ上での自己教師付き学習(SSL)の行動分析を行う。
大きな$tau$はグループ的な差別を強調するのに対し、小さな$tau$はより高いインスタンスの差別をもたらす。
動的$tau$を用いて、簡単なコサインスケジュールが学習表現に大きな改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-23T20:37:25Z) - Integrating Local Real Data with Global Gradient Prototypes for
Classifier Re-Balancing in Federated Long-Tailed Learning [60.41501515192088]
フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散ラーニングパラダイムになっています。
データサンプルは通常、現実世界の長い尾の分布に従っており、分散化された長い尾のデータのFLは、貧弱なグローバルモデルをもたらす。
本研究では、局所的な実データとグローバルな勾配のプロトタイプを統合し、局所的なバランスの取れたデータセットを形成する。
論文 参考訳(メタデータ) (2023-01-25T03:18:10Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。