Fugu-MT 論文翻訳(概要): Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss

論文の概要: Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss

arxiv url: http://arxiv.org/abs/2410.17243v1
Date: Tue, 22 Oct 2024 17:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.143632
Title: Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss
Title（参考訳）: メモリバリアを壊す - コントラスト損失に対する無限に近いバッチサイズスケーリング
Authors: Zesen Cheng, Hang Zhang, Kehan Li, Sicong Leng, Zhiqiang Hu, Fei Wu, Deli Zhao, Xin Li, Lidong Bing,
Abstract要約: 本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
参考スコア（独自算出の注目度）: 59.835032408496545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive loss is a powerful approach for representation learning, where larger batch sizes enhance performance by providing more negative samples to better distinguish between similar and dissimilar data. However, scaling batch sizes is constrained by the quadratic growth in GPU memory consumption, primarily due to the full instantiation of the similarity matrix. To address this, we propose a tile-based computation strategy that partitions the contrastive loss calculation into arbitrary small blocks, avoiding full materialization of the similarity matrix. Furthermore, we introduce a multi-level tiling strategy to leverage the hierarchical structure of distributed systems, employing ring-based communication at the GPU level to optimize synchronization and fused kernels at the CUDA core level to reduce I/O overhead. Experimental results show that the proposed method scales batch sizes to unprecedented levels. For instance, it enables contrastive training of a CLIP-ViT-L/14 model with a batch size of 4M or 12M using 8 or 32 A800 80GB without sacrificing any accuracy. Compared to SOTA memory-efficient solutions, it achieves a two-order-of-magnitude reduction in memory while maintaining comparable speed. The code will be made publicly available.
Abstract（参考訳）: 対照的な損失は表現学習の強力なアプローチであり、より大きなバッチサイズは、類似データと異種データをよりよく区別するために、よりネガティブなサンプルを提供することによってパフォーマンスを高める。しかし、バッチサイズのスケーリングは、GPUメモリ消費の2次的な増加によって制限される。そこで本研究では,コントラスト損失計算を任意の小さなブロックに分割するタイルベースの計算手法を提案する。さらに、GPUレベルでのリングベースの通信を利用して、CUDAコアレベルでの同期および融合カーネルを最適化し、I/Oオーバーヘッドを低減するため、分散システムの階層構造を活用するマルチレベルタイリング戦略を導入する。実験の結果,提案手法はバッチサイズを前例のないレベルまで拡大することがわかった。例えば、CLIP-ViT-L/14モデルのバッチサイズが4Mまたは12Mで、8または32 A800 80GBで、精度を犠牲にすることなく、対照的なトレーニングを可能にする。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。コードは公開されます。

関連論文リスト

DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。 LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文参考訳（メタデータ） (2025-07-03T22:53:34Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Cut Your Losses in Large-Vocabulary Language Models [102.6981011879656]
我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。 CCEはロスのメモリフットプリントを24GBから1MBに減らし、ヘッドのトレーニング時間のメモリ消費を28GBから1GBに短縮する。
論文参考訳（メタデータ） (2024-11-13T20:30:15Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Distributed bundle adjustment with block-based sparse matrix compression for super large scale datasets [0.0]
超大規模データセットに対する厳密なLevenberg-Marquardt(LM)アルゴリズムを用いた分散バンドル調整(DBA)手法を提案する。はじめに、118万画像と1000万画像の合成データセットを持つ実データセットに対して、LMアルゴリズムを用いた並列バンドル調整を行った。
論文参考訳（メタデータ） (2023-07-17T10:43:54Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training [13.953918004371493]
DisCo-CLIPはメモリ効率のよいCLIPトレーニングアプローチである。 DisCo-CLIPは、バッチサイズ32Kまたは196KのViT-B/32モデルのコントラストトレーニングを可能にする。
論文参考訳（メタデータ） (2023-04-17T17:58:21Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。本研究は,リコールにおける相異なるサロゲート損失を提案する。提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-08-25T11:09:11Z)
Memory and Computation-Efficient Kernel SVM via Binary Embedding and Ternary Model Coefficients [18.52747917850984]
カーネル近似はカーネルSVMのトレーニングと予測のスケールアップに広く用いられている。メモリ制限されたデバイスにデプロイしたい場合、カーネル近似モデルのメモリと計算コストはまだ高すぎる。本稿では,バイナリ埋め込みとバイナリモデル係数を用いて,新しいメモリと計算効率の高いカーネルSVMモデルを提案する。
論文参考訳（メタデータ） (2020-10-06T09:41:54Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。