論文の概要: FastFace: Fast-converging Scheduler for Large-scale Face Recognition Training with One GPU
- arxiv url: http://arxiv.org/abs/2404.11118v2
- Date: Wed, 11 Dec 2024 15:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:59:17.394913
- Title: FastFace: Fast-converging Scheduler for Large-scale Face Recognition Training with One GPU
- Title(参考訳): FastFace: 1つのGPUによる大規模顔認識トレーニングのための高速収束スケジューリング
- Authors: Xueyuan Gong, Zhiquan Liu, Yain-Whar Si, Xiaochen Yuan, Ke Wang, Xiaoxiang Liu, Cong Lin, Xinyuan Zhang,
- Abstract要約: 我々は、無視できる時間複雑性を持つ高速収束スケジューラであるFastFaceを提示する。
実際にFastFaceは、顔認識モデルのトレーニングを、1%以上の精度を犠牲にすることなく、元の時間の4分の1まで加速することができる。
- 参考スコア(独自算出の注目度): 10.656812733659514
- License:
- Abstract: Computing power has evolved into a foundational and indispensable resource in the area of deep learning, particularly in tasks such as Face Recognition (FR) model training on large-scale datasets, where multiple GPUs are often a necessity. Recognizing this challenge, some FR methods have started exploring ways to compress the fully-connected layer in FR models. Unlike other approaches, our observations reveal that without prompt scheduling of the learning rate (LR) during FR model training, the loss curve tends to exhibit numerous stationary subsequences. To address this issue, we introduce a novel LR scheduler leveraging Exponential Moving Average (EMA) and Haar Convolutional Kernel (HCK) to eliminate stationary subsequences, resulting in a significant reduction in converging time. However, the proposed scheduler incurs a considerable computational overhead due to its time complexity. To overcome this limitation, we propose FastFace, a fast-converging scheduler with negligible time complexity, i.e. O(1) per iteration, during training. In practice, FastFace is able to accelerate FR model training to a quarter of its original time without sacrificing more than 1% accuracy, making large-scale FR training feasible even with just one single GPU in terms of both time and space complexity. Extensive experiments validate the efficiency and effectiveness of FastFace. The code is publicly available at: https://github.com/amoonfana/FastFace
- Abstract(参考訳): 特に大規模なデータセット上での顔認識(FR)モデルトレーニングのようなタスクでは、複数のGPUが必要な場合が多い。
この課題を認識したいくつかのFR法は、FRモデルの完全連結層を圧縮する方法を模索し始めた。
他の手法とは異なり、FRモデルトレーニング中に学習率(LR)の迅速なスケジューリングがなければ、損失曲線は多くの定常部分列を示す傾向にある。
この問題に対処するために,EMA(Exponential moving Average)とHCK(Haar Convolutional Kernel)を利用した新しいLRスケジューラを導入する。
しかし、提案するスケジューラは、その時間的複雑さのため、かなりの計算オーバーヘッドを発生させる。
この制限を克服するために、トレーニング中に1イテレーションあたりのO(1)という、無視できる時間複雑性を持つ高速収束スケジューラであるFastFaceを提案する。
実際には、FastFaceはFRモデルのトレーニングを、1%以上の精度を犠牲にすることなく、元の時間の4分の1まで加速することができる。
大規模な実験は、FastFaceの有効性と有効性を検証する。
コードは、https://github.com/amoonfana/FastFaceで公開されている。
関連論文リスト
- Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。
ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。
A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文 参考訳(メタデータ) (2025-01-09T20:19:01Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Lancet: Accelerating Mixture-of-Experts Training via Whole Graph Computation-Communication Overlapping [14.435637320909663]
MoEテクニックは、DNNモデルパラメータのサイズを拡大する上で重要な役割を果たす。
既存の手法は、全てを専門家の計算でオーバーラップすることでこの問題を緩和しようとする。
本研究では,より広いトレーニンググラフレベルでのオーバーラップを考慮し,この課題の範囲を広げる。
コンパイラをベースとした最適化により,MoEモデルトレーニングを自動的に強化するシステムであるLancetにこれらの手法を実装した。
論文 参考訳(メタデータ) (2024-04-30T10:17:21Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - SPEED: Streaming Partition and Parallel Acceleration for Temporal
Interaction Graph Embedding [22.68416593780539]
本稿では,時間的相互作用グラフ埋め込みのためのストリームエッジ分割と並列高速化という,新たなトレーニング手法を提案する。
提案手法は,計算資源,計算時間,下流タスク性能のバランスが良好である。
7つの実世界のデータセットにまたがる実証的な検証は、トレーニング速度を最大19.29倍に向上させる可能性を実証している。
論文 参考訳(メタデータ) (2023-08-27T15:11:44Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文 参考訳(メタデータ) (2020-08-08T03:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。