論文の概要: Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss
- arxiv url: http://arxiv.org/abs/2410.17243v1
- Date: Tue, 22 Oct 2024 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:37.473363
- Title: Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss
- Title(参考訳): メモリバリアを壊す - コントラスト損失に対する無限に近いバッチサイズスケーリング
- Authors: Zesen Cheng, Hang Zhang, Kehan Li, Sicong Leng, Zhiqiang Hu, Fei Wu, Deli Zhao, Xin Li, Lidong Bing,
- Abstract要約: 本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
- 参考スコア(独自算出の注目度): 59.835032408496545
- License:
- Abstract: Contrastive loss is a powerful approach for representation learning, where larger batch sizes enhance performance by providing more negative samples to better distinguish between similar and dissimilar data. However, scaling batch sizes is constrained by the quadratic growth in GPU memory consumption, primarily due to the full instantiation of the similarity matrix. To address this, we propose a tile-based computation strategy that partitions the contrastive loss calculation into arbitrary small blocks, avoiding full materialization of the similarity matrix. Furthermore, we introduce a multi-level tiling strategy to leverage the hierarchical structure of distributed systems, employing ring-based communication at the GPU level to optimize synchronization and fused kernels at the CUDA core level to reduce I/O overhead. Experimental results show that the proposed method scales batch sizes to unprecedented levels. For instance, it enables contrastive training of a CLIP-ViT-L/14 model with a batch size of 4M or 12M using 8 or 32 A800 80GB without sacrificing any accuracy. Compared to SOTA memory-efficient solutions, it achieves a two-order-of-magnitude reduction in memory while maintaining comparable speed. The code will be made publicly available.
- Abstract(参考訳): 対照的な損失は表現学習の強力なアプローチであり、より大きなバッチサイズは、類似データと異種データをよりよく区別するために、よりネガティブなサンプルを提供することによってパフォーマンスを高める。
しかし、バッチサイズのスケーリングは、GPUメモリ消費の2次的な増加によって制限される。
そこで本研究では,コントラスト損失計算を任意の小さなブロックに分割するタイルベースの計算手法を提案する。
さらに、GPUレベルでのリングベースの通信を利用して、CUDAコアレベルでの同期および融合カーネルを最適化し、I/Oオーバーヘッドを低減するため、分散システムの階層構造を活用するマルチレベルタイリング戦略を導入する。
実験の結果,提案手法はバッチサイズを前例のないレベルまで拡大することがわかった。
例えば、CLIP-ViT-L/14モデルのバッチサイズが4Mまたは12Mで、8または32 A800 80GBで、精度を犠牲にすることなく、対照的なトレーニングを可能にする。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
コードは公開されます。
関連論文リスト
- Distributed bundle adjustment with block-based sparse matrix compression
for super large scale datasets [0.0]
超大規模データセットに対する厳密なLevenberg-Marquardt(LM)アルゴリズムを用いた分散バンドル調整(DBA)手法を提案する。
はじめに、118万画像と1000万画像の合成データセットを持つ実データセットに対して、LMアルゴリズムを用いた並列バンドル調整を行った。
論文 参考訳(メタデータ) (2023-07-17T10:43:54Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP
Training [13.953918004371493]
DisCo-CLIPはメモリ効率のよいCLIPトレーニングアプローチである。
DisCo-CLIPは、バッチサイズ32Kまたは196KのViT-B/32モデルのコントラストトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-04-17T17:58:21Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。
本研究は,リコールにおける相異なるサロゲート損失を提案する。
提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-25T11:09:11Z) - Memory and Computation-Efficient Kernel SVM via Binary Embedding and
Ternary Model Coefficients [18.52747917850984]
カーネル近似はカーネルSVMのトレーニングと予測のスケールアップに広く用いられている。
メモリ制限されたデバイスにデプロイしたい場合、カーネル近似モデルのメモリと計算コストはまだ高すぎる。
本稿では,バイナリ埋め込みとバイナリモデル係数を用いて,新しいメモリと計算効率の高いカーネルSVMモデルを提案する。
論文 参考訳(メタデータ) (2020-10-06T09:41:54Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。