Fugu-MT 論文翻訳(概要): Large-Scale Training System for 100-Million Classification at Alibaba

論文の概要: Large-Scale Training System for 100-Million Classification at Alibaba

arxiv url: http://arxiv.org/abs/2102.06025v1
Date: Tue, 9 Feb 2021 06:53:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-12 14:11:23.388863
Title: Large-Scale Training System for 100-Million Classification at Alibaba
Title（参考訳）: アリババにおける100Million分類のための大規模訓練システム
Authors: Liuyihan Song and Pan Pan and Kang Zhao and Hao Yang and Yiming Chen and Yingya Zhang and Yinghui Xu and Rong Jin
Abstract要約: 極度の分類は深層学習に欠かせない話題になっています最後の出力層におけるメモリと爆発のため、数百万のクラスでディープモデルをトレーニングするのは非常に困難です。トレーニングプロセスを実現可能にするために、ハイブリッド並列トレーニングフレームワークを構築しています。第2に,GPUメモリ使用量と計算コストの両方を削減するKNNソフトマックスという新しいソフトマックス変種を提案する。
参考スコア（独自算出の注目度）: 43.58719630882661
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the last decades, extreme classification has become an essential topic for deep learning. It has achieved great success in many areas, especially in computer vision and natural language processing (NLP). However, it is very challenging to train a deep model with millions of classes due to the memory and computation explosion in the last output layer. In this paper, we propose a large-scale training system to address these challenges. First, we build a hybrid parallel training framework to make the training process feasible. Second, we propose a novel softmax variation named KNN softmax, which reduces both the GPU memory consumption and computation costs and improves the throughput of training. Then, to eliminate the communication overhead, we propose a new overlapping pipeline and a gradient sparsification method. Furthermore, we design a fast continuous convergence strategy to reduce total training iterations by adaptively adjusting learning rate and updating model parameters. With the help of all the proposed methods, we gain 3.9$\times$ throughput of our training system and reduce almost 60\% of training iterations. The experimental results show that using an in-house 256 GPUs cluster, we could train a classifier of 100 million classes on Alibaba Retail Product Dataset in about five days while achieving a comparable accuracy with the naive softmax training process.
Abstract（参考訳）: 過去数十年間、極端な分類はディープラーニングの重要なトピックになっている。多くの分野で、特にコンピュータビジョンと自然言語処理(NLP)において大きな成功を収めている。しかし、最後の出力層におけるメモリと計算の爆発のために、数百万のクラスで深いモデルを訓練することは非常に困難です。本稿では,これらの課題に対処するための大規模トレーニングシステムを提案する。まず、トレーニングプロセスを実現するためのハイブリッドな並列トレーニングフレームワークを構築します。次に、GPUのメモリ消費と計算コストを削減し、トレーニングのスループットを向上させるKNN Softmaxという新しいソフトマックスバリエーションを提案します。次に,通信のオーバーヘッドをなくすため,新しい重複パイプラインと勾配スパーシフィケーション手法を提案する。さらに,学習率を適応的に調整し,モデルパラメータを更新することにより,総トレーニングイテレーションを削減するための高速連続収束戦略を設計する。提案手法のすべての助けを借りて、トレーニングシステムのスループットを3.9$\times$にし、トレーニングイテレーションの約60%を削減した。実験結果は、社内の256GPUクラスタを使用して、アリババリテール製品データセット上の1億クラスの分類器を約5日間でトレーニングし、ナイーブソフトマックストレーニングプロセスと同等の精度を達成できることを示しています。

関連論文リスト

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs [123.25404278506585]
135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
論文参考訳（メタデータ） (2025-04-10T15:41:51Z)
Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
BLoad: Enhancing Neural Network Training with Efficient Sequential Data Handling [8.859850475075238]
オーバヘッドを最小限に抑えながら、異なるサイズのシーケンスに対して効率的な分散データ並列トレーニングを可能にする新しいトレーニング手法を提案する。このスキームを使用することで、単一のフレームを削除することなく、パディング量を100ドル以上削減することができ、結果として、トレーニング時間とリコールの両方で全体的なパフォーマンスが向上しました。
論文参考訳（メタデータ） (2023-10-16T23:14:56Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文参考訳（メタデータ） (2021-12-02T17:11:33Z)
Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to 100 Trillion Parameters [36.1028179125367]
ディープラーニングモデルは、現在のプロダクションレコメンデータシステムのランドスケープを支配しています。近年、Googleの2016年モデルから、12兆のパラメータを持つ最新のFacebookモデルまで、モデルスケールの指数的な成長が見られた。しかし、そのようなモデルのトレーニングは、産業規模のデータセンターでも困難である。
論文参考訳（メタデータ） (2021-11-10T19:40:25Z)
ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。 ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文参考訳（メタデータ） (2021-10-11T14:45:00Z)
Layered gradient accumulation and modular pipeline parallelism: fast and efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文参考訳（メタデータ） (2021-06-04T19:21:49Z)
Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。本手法は画像内情報と画像間情報の両方を利用する。トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文参考訳（メタデータ） (2021-04-01T08:09:26Z)
Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for BERT Training Speedup [13.50984315473865]
BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
論文参考訳（メタデータ） (2020-11-27T10:00:22Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。