論文の概要: DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP
Training
- arxiv url: http://arxiv.org/abs/2304.08480v1
- Date: Mon, 17 Apr 2023 17:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 13:52:14.869801
- Title: DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP
Training
- Title(参考訳): DisCo-CLIP: メモリ効率の良いCLIPトレーニングのための分散コントラスト損失
- Authors: Yihao Chen, Xianbiao Qi, Jianan Wang, Lei Zhang
- Abstract要約: DisCo-CLIPはメモリ効率のよいCLIPトレーニングアプローチである。
DisCo-CLIPは、バッチサイズ32Kまたは196KのViT-B/32モデルのコントラストトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 13.953918004371493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose DisCo-CLIP, a distributed memory-efficient CLIP training approach,
to reduce the memory consumption of contrastive loss when training contrastive
learning models. Our approach decomposes the contrastive loss and its gradient
computation into two parts, one to calculate the intra-GPU gradients and the
other to compute the inter-GPU gradients. According to our decomposition, only
the intra-GPU gradients are computed on the current GPU, while the inter-GPU
gradients are collected via all_reduce from other GPUs instead of being
repeatedly computed on every GPU. In this way, we can reduce the GPU memory
consumption of contrastive loss computation from $\bigO(B^2)$ to
$\bigO(\frac{B^2}{N})$, where $B$ and $N$ are the batch size and the number of
GPUs used for training. Such a distributed solution is mathematically
equivalent to the original non-distributed contrastive loss computation,
without sacrificing any computation accuracy. It is particularly efficient for
large-batch CLIP training. For instance, DisCo-CLIP can enable contrastive
training of a ViT-B/32 model with a batch size of 32K or 196K using 8 or 64
A100 40GB GPUs, compared with the original CLIP solution which requires 128
A100 40GB GPUs to train a ViT-B/32 model with a batch size of 32K. The code
will be released at https://github.com/IDEA-Research/DisCo-CLIP
- Abstract(参考訳): 本稿では,分散メモリ効率のCLIP学習手法であるDisCo-CLIPを提案する。
提案手法では,コントラスト損失と勾配計算を,GPU内勾配を計算する部分とGPU間勾配を計算する部分に分解する。
我々の分解では、GPU内勾配のみを現在のGPUで計算し、GPU間勾配はすべてのGPUで繰り返し計算される代わりに、他のGPUからall_reduceを介して収集する。
このようにして、対比損失計算のGPUメモリ消費を$\bigO(B^2)$から$\bigO(\frac{B^2}{N})$に削減できる。
このような分散解は、計算精度を犠牲にすることなく、元の非分散トラスト損失計算と数学的に等価である。
大規模なCLIPトレーニングには特に効果的である。
例えば、DisCo-CLIPは、8または64のA100 40GB GPUを使用したバッチサイズ32Kまたは196KのViT-B/32モデルの対照的なトレーニングを可能にする。
コードはhttps://github.com/IDEA-Research/DisCo-CLIPで公開される。
関連論文リスト
- DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - AxoNN: An asynchronous, message-driven parallel framework for
extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文 参考訳(メタデータ) (2021-10-25T14:43:36Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。
単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-03T05:45:06Z) - Data-Efficient Instance Segmentation with a Single GPU [88.31338435907304]
我々は2021年のVIPriors Instance Challengeで使用したデータ効率のセグメンテーション手法を紹介した。
私たちのソリューションは、強力なツールボックスであるmmdetectionをベースにした、Swin Transformerの修正版です。
本手法は,全競技者の2位である0.592のAP@0.50:0.95(medium)を達成した。
論文 参考訳(メタデータ) (2021-10-01T07:36:20Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU [87.48110331544885]
既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
論文 参考訳(メタデータ) (2020-12-14T13:12:38Z) - Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-26T21:03:45Z) - Out-of-Core GPU Gradient Boosting [0.0]
モデル精度やトレーニング時間を劣化させることなく、より大規模なデータセットを所定のGPUに適合させることができることを示す。
グラデーションブースティングのGPU実装としてはこれが初めてだ。
論文 参考訳(メタデータ) (2020-05-19T00:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。