論文の概要: On Improving the Algorithm-, Model-, and Data- Efficiency of Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2404.19289v1
- Date: Tue, 30 Apr 2024 06:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:14:12.847177
- Title: On Improving the Algorithm-, Model-, and Data- Efficiency of Self-Supervised Learning
- Title(参考訳): 自己指導型学習のアルゴリズム・モデル・データ効率の改善について
- Authors: Yun-Hao Cao, Jianxin Wu,
- Abstract要約: 非パラメトリックなインスタンス識別に基づく効率的なシングルブランチSSL手法を提案する。
また,確率分布と正方形根版とのKL分散を最小限に抑える新しい自己蒸留損失を提案する。
- 参考スコア(独自算出の注目度): 18.318758111829386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has developed rapidly in recent years. However, most of the mainstream methods are computationally expensive and rely on two (or more) augmentations for each image to construct positive pairs. Moreover, they mainly focus on large models and large-scale datasets, which lack flexibility and feasibility in many practical applications. In this paper, we propose an efficient single-branch SSL method based on non-parametric instance discrimination, aiming to improve the algorithm, model, and data efficiency of SSL. By analyzing the gradient formula, we correct the update rule of the memory bank with improved performance. We further propose a novel self-distillation loss that minimizes the KL divergence between the probability distribution and its square root version. We show that this alleviates the infrequent updating problem in instance discrimination and greatly accelerates convergence. We systematically compare the training overhead and performance of different methods in different scales of data, and under different backbones. Experimental results show that our method outperforms various baselines with significantly less overhead, and is especially effective for limited amounts of data and small models.
- Abstract(参考訳): 近年,自己指導型学習(SSL)が急速に発展している。
しかし、ほとんどの主流の手法は計算に高価であり、正のペアを構成するために各画像に対して2つ(またはそれ以上)の拡張に依存している。
さらに、主に大規模なモデルと大規模なデータセットに焦点を当てており、多くの実用的なアプリケーションで柔軟性と実現性に欠ける。
本稿では,SSLのアルゴリズム,モデル,データ効率を改善することを目的とした,非パラメトリックなインスタンス識別に基づく効率的な単一ブランチSSL手法を提案する。
勾配式を解析することにより,メモリバンクの更新規則を改良して修正する。
さらに、確率分布と平方根のKL分散を最小化する新しい自己蒸留損失を提案する。
これにより、インスタンス識別における頻繁な更新問題を軽減し、収束を大幅に加速することを示す。
異なるデータスケールで、異なるバックボーンの下で、異なるメソッドのトレーニングオーバーヘッドとパフォーマンスを体系的に比較する。
実験結果から,本手法はオーバーヘッドが著しく少なく,様々なベースラインよりも優れており,特に限られたデータ量や小モデルに対して有効であることがわかった。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Augmentations vs Algorithms: What Works in Self-Supervised Learning [9.194402355758164]
自己監督学習(SSL)におけるデータ強化,事前学習アルゴリズム,モデルアーキテクチャの相対効果について検討する。
異なるSSLメソッドを単一の共有テンプレートに統合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T23:42:06Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - End-to-End Training of CNN Ensembles for Person Re-Identification [0.0]
本稿では,識別モデルにおける過剰適合問題に対処するため,個人再識別のためのエンドツーエンドアンサンブル手法を提案する。
提案するアンサンブル学習フレームワークは,1つのDenseNetで多種多様な,正確なベースラーニングを行う。
いくつかのベンチマークデータセットを用いた実験により,本手法が最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2020-10-03T12:40:13Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。