論文の概要: Large-Scale Training System for 100-Million Classification at Alibaba
- arxiv url: http://arxiv.org/abs/2102.06025v1
- Date: Tue, 9 Feb 2021 06:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:11:23.388863
- Title: Large-Scale Training System for 100-Million Classification at Alibaba
- Title(参考訳): アリババにおける100Million分類のための大規模訓練システム
- Authors: Liuyihan Song and Pan Pan and Kang Zhao and Hao Yang and Yiming Chen
and Yingya Zhang and Yinghui Xu and Rong Jin
- Abstract要約: 極度の分類は 深層学習に欠かせない話題になっています
最後の出力層におけるメモリと爆発のため、数百万のクラスでディープモデルをトレーニングするのは非常に困難です。
トレーニングプロセスを実現可能にするために、ハイブリッド並列トレーニングフレームワークを構築しています。
第2に,GPUメモリ使用量と計算コストの両方を削減するKNNソフトマックスという新しいソフトマックス変種を提案する。
- 参考スコア(独自算出の注目度): 43.58719630882661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last decades, extreme classification has become an essential topic for
deep learning. It has achieved great success in many areas, especially in
computer vision and natural language processing (NLP). However, it is very
challenging to train a deep model with millions of classes due to the memory
and computation explosion in the last output layer. In this paper, we propose a
large-scale training system to address these challenges. First, we build a
hybrid parallel training framework to make the training process feasible.
Second, we propose a novel softmax variation named KNN softmax, which reduces
both the GPU memory consumption and computation costs and improves the
throughput of training. Then, to eliminate the communication overhead, we
propose a new overlapping pipeline and a gradient sparsification method.
Furthermore, we design a fast continuous convergence strategy to reduce total
training iterations by adaptively adjusting learning rate and updating model
parameters. With the help of all the proposed methods, we gain 3.9$\times$
throughput of our training system and reduce almost 60\% of training
iterations. The experimental results show that using an in-house 256 GPUs
cluster, we could train a classifier of 100 million classes on Alibaba Retail
Product Dataset in about five days while achieving a comparable accuracy with
the naive softmax training process.
- Abstract(参考訳): 過去数十年間、極端な分類はディープラーニングの重要なトピックになっている。
多くの分野で、特にコンピュータビジョンと自然言語処理(NLP)において大きな成功を収めている。
しかし、最後の出力層におけるメモリと計算の爆発のために、数百万のクラスで深いモデルを訓練することは非常に困難です。
本稿では,これらの課題に対処するための大規模トレーニングシステムを提案する。
まず、トレーニングプロセスを実現するためのハイブリッドな並列トレーニングフレームワークを構築します。
次に、GPUのメモリ消費と計算コストを削減し、トレーニングのスループットを向上させるKNN Softmaxという新しいソフトマックスバリエーションを提案します。
次に,通信のオーバーヘッドをなくすため,新しい重複パイプラインと勾配スパーシフィケーション手法を提案する。
さらに,学習率を適応的に調整し,モデルパラメータを更新することにより,総トレーニングイテレーションを削減するための高速連続収束戦略を設計する。
提案手法のすべての助けを借りて、トレーニングシステムのスループットを3.9$\times$にし、トレーニングイテレーションの約60%を削減した。
実験結果は、社内の256GPUクラスタを使用して、アリババリテール製品データセット上の1億クラスの分類器を約5日間でトレーニングし、ナイーブソフトマックストレーニングプロセスと同等の精度を達成できることを示しています。
関連論文リスト
- Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - BLoad: Enhancing Neural Network Training with Efficient Sequential Data Handling [8.859850475075238]
オーバヘッドを最小限に抑えながら、異なるサイズのシーケンスに対して効率的な分散データ並列トレーニングを可能にする新しいトレーニング手法を提案する。
このスキームを使用することで、単一のフレームを削除することなく、パディング量を100ドル以上削減することができ、結果として、トレーニング時間とリコールの両方で全体的なパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2023-10-16T23:14:56Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。
より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。
トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T17:11:33Z) - Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to
100 Trillion Parameters [36.1028179125367]
ディープラーニングモデルは、現在のプロダクションレコメンデータシステムのランドスケープを支配しています。
近年、Googleの2016年モデルから、12兆のパラメータを持つ最新のFacebookモデルまで、モデルスケールの指数的な成長が見られた。
しかし、そのようなモデルのトレーニングは、産業規模のデータセンターでも困難である。
論文 参考訳(メタデータ) (2021-11-10T19:40:25Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for
BERT Training Speedup [13.50984315473865]
BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。
提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。
実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
論文 参考訳(メタデータ) (2020-11-27T10:00:22Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。