論文の概要: Diversity Is All You Need for Contrastive Learning: Spectral Bounds on Gradient Magnitudes
- arxiv url: http://arxiv.org/abs/2510.05767v1
- Date: Tue, 07 Oct 2025 10:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.206514
- Title: Diversity Is All You Need for Contrastive Learning: Spectral Bounds on Gradient Magnitudes
- Title(参考訳): コントラスト学習に必要な多様性 - グラディエントマグニチュードに関するスペクトル境界
- Authors: Peter Ochieng,
- Abstract要約: 我々は、アライメント、温度、バッチスペクトルによって正方形InfoNCE勾配ノルムを束縛する非漸近スペクトルバンドを導出する。
In-batch Whiteningは等方性を促進し、(1.37時間)50ステップの勾配分散を減少させる
- 参考スコア(独自算出の注目度): 4.873362301533824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We derive non-asymptotic spectral bands that bound the squared InfoNCE gradient norm via alignment, temperature, and batch spectrum, recovering the \(1/\tau^{2}\) law and closely tracking batch-mean gradients on synthetic data and ImageNet. Using effective rank \(R_{\mathrm{eff}}\) as an anisotropy proxy, we design spectrum-aware batch selection, including a fast greedy builder. On ImageNet-100, Greedy-64 cuts time-to-67.5\% top-1 by 15\% vs.\ random (24\% vs.\ Pool--P3) at equal accuracy; CIFAR-10 shows similar gains. In-batch whitening promotes isotropy and reduces 50-step gradient variance by \(1.37\times\), matching our theoretical upper bound.
- Abstract(参考訳): 我々は,正方形InfoNCE勾配ノルムをアライメント,温度,バッチスペクトルで束縛し,(1/\tau^{2}\)法則を回復し,合成データとImageNetのバッチ平均勾配を綿密に追跡する非漸近スペクトルバンドを導出した。
有効ランク \(R_{\mathrm{eff}}\) を異方性プロキシとして使用し、高速なグリーディビルダーを含むスペクトル対応バッチ選択を設計する。
ImageNet-100では、Greedy-64 がトップ-1 から 67.5 までを 15 倍削減する。
ランダム (24 % vs。
\ Pool--P3) の精度は等しく、CIFAR-10 も同様の利得を示す。
In-batch Whitening は等方性を促進し、理論上界と一致する 50 段階の勾配分散を \(1.37\times\) で減少させる。
関連論文リスト
- Clip Body and Tail Separately: High Probability Guarantees for DPSGD with Heavy Tails [20.432871178766927]
Differentially Private Gradient Descent (DPSGD)は、ディープラーニングにおけるトレーニングデータのプライバシを保護するために広く利用されている。
DPSGDは、標準への勾配をクリップし、訓練手順に校正されたノイズを注入する。
本稿では,2つの重要な反復を含む新しい手法であるDPSGDを提案する。
論文 参考訳(メタデータ) (2024-05-27T16:30:11Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Modulate Your Spectrum in Self-Supervised Learning [65.963806450552]
ホワイトニング損失は、自己教師付き学習における特徴の崩壊に対する理論的保証を提供する。
埋め込みのスペクトルを変調するフレームワークであるスペクトル変換(ST)を導入する。
我々は、トレースロス(INTL)を持つIterNormという新しいSTインスタンスを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:59:48Z) - Tight Risk Bounds for Gradient Descent on Separable Data [33.593203156666746]
分離線形分類に適用した非正規化勾配法の一般化特性について検討した。
リスク低い境界は、この文脈で最初のものであり、与えられたテール崩壊率に対する上限の厳密性を確立する。
論文 参考訳(メタデータ) (2023-03-02T10:31:58Z) - Dataset Distillation with Convexified Implicit Gradients [69.16247946639233]
メタ段階更新の計算に暗黙の勾配を効果的に利用できるかを示す。
さらに,凍結した有限幅ニューラルネットワーク上での学習に対応する凸近似をアルゴリズムに装備する。
論文 参考訳(メタデータ) (2023-02-13T23:53:16Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。