論文の概要: Not All Semantics are Created Equal: Contrastive Self-supervised
Learning with Automatic Temperature Individualization
- arxiv url: http://arxiv.org/abs/2305.11965v1
- Date: Fri, 19 May 2023 19:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 01:44:07.848880
- Title: Not All Semantics are Created Equal: Contrastive Self-supervised
Learning with Automatic Temperature Individualization
- Title(参考訳): すべてのセマンティクスが平等であるとは限らない: 自己指導型自己指導型自己学習
- Authors: Zi-Hao Qiu, Quanqi Hu, Zhuoning Yuan, Denny Zhou, Lijun Zhang, Tianbao
Yang
- Abstract要約: 分散ロバスト最適化(DRO)に着想を得た新しい頑健なコントラスト損失を提案する。
提案アルゴリズムは,各サンプルに対して適切な$tau$を自動で学習することを示す。
提案手法は, 単モーダル・バイモーダル・データセットにおいて, 従来の強いベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 51.41175648612714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we aim to optimize a contrastive loss with individualized
temperatures in a principled and systematic manner for self-supervised
learning. The common practice of using a global temperature parameter $\tau$
ignores the fact that ``not all semantics are created equal", meaning that
different anchor data may have different numbers of samples with similar
semantics, especially when data exhibits long-tails. First, we propose a new
robust contrastive loss inspired by distributionally robust optimization (DRO),
providing us an intuition about the effect of $\tau$ and a mechanism for
automatic temperature individualization. Then, we propose an efficient
stochastic algorithm for optimizing the robust contrastive loss with a provable
convergence guarantee without using large mini-batch sizes. Theoretical and
experimental results show that our algorithm automatically learns a suitable
$\tau$ for each sample. Specifically, samples with frequent semantics use large
temperatures to keep local semantic structures, while samples with rare
semantics use small temperatures to induce more separable features. Our method
not only outperforms prior strong baselines (e.g., SimCLR, CLIP) on unimodal
and bimodal datasets with larger improvements on imbalanced data but also is
less sensitive to hyper-parameters. To our best knowledge, this is the first
methodical approach to optimizing a contrastive loss with individualized
temperatures.
- Abstract(参考訳): 本稿では,自己指導型学習において,個別化温度による対照的な損失を原則的かつ体系的に最適化することを目的とする。
グローバル温度パラメータである$\tau$を使用する一般的なプラクティスは、 ``not all semantics are created equal" という事実を無視している。
まず、分布的ロバストな最適化(DRO)にインスパイアされた新しい頑健な対照的な損失を提案し、$\tau$の効果と自動温度個別化のメカニズムについて直感を与える。
そこで本研究では,大規模ミニバッチサイズを用いずに,証明可能な収束保証によりロバストなコントラスト損失を最適化する効率的な確率的アルゴリズムを提案する。
理論的および実験的結果から,本アルゴリズムは各サンプルに対して適切な$\tau$を自動で学習することを示す。
特に、頻繁なセマンティクスを持つサンプルは局所的なセマンティクス構造を維持するために大きな温度を使用し、稀なセマンティクスを持つサンプルはより分離可能な特徴を誘導するために小さな温度を使用する。
提案手法は, 従来の強いベースライン(SimCLRやCLIPなど)を非定常およびバイモーダルなデータセットで上回るだけでなく, ハイパーパラメータに対する感度も低い。
我々の知る限りでは、これは個別の温度で対照的な損失を最適化する最初の方法である。
関連論文リスト
- CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Dynamically Scaled Temperature in Self-Supervised Contrastive Learning [11.133502139934437]
本稿では,コサインの類似性に依存した温度スケーリング機能を提案することで,自己教師型学習におけるInfoNCE損失の性能向上に着目する。
実験的な証拠は、提案フレームワークが損失ベースのSSLアルゴリズムよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-08-02T13:31:41Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文 参考訳(メタデータ) (2022-06-03T00:34:13Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。