論文の概要: MHLR: Moving Haar Learning Rate Scheduler for Large-scale Face Recognition Training with One GPU
- arxiv url: http://arxiv.org/abs/2404.11118v1
- Date: Wed, 17 Apr 2024 07:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-18 15:04:52.080180
- Title: MHLR: Moving Haar Learning Rate Scheduler for Large-scale Face Recognition Training with One GPU
- Title(参考訳): MHLR:1つのGPUを用いた大規模顔認識訓練のための移動ハードル学習率スケジューリング
- Authors: Xueyuan Gong, Yain-whar Si, Zheng Zhang, Xiaochen Yuan, Ke Wang, Xinyuan Zhang, Cong Lin, Xiaoxiang Liu,
- Abstract要約: 本稿では,学習過程において,学習率を迅速かつ正確にスケジューリングするための移動ハーアー学習率(MHLR)スケジューラを提案する。
MHLRは1つのGPUで大規模なFRトレーニングをサポートしており、1%以上の精度を犠牲にすることなく、オリジナルのトレーニング時間の1/4までモデルを加速することができる。
- 参考スコア(独自算出の注目度): 13.132285067667171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face recognition (FR) has seen significant advancements due to the utilization of large-scale datasets. Training deep FR models on large-scale datasets with multiple GPUs is now a common practice. In fact, computing power has evolved into a foundational and indispensable resource in the area of deep learning. It is nearly impossible to train a deep FR model without holding adequate hardware resources. Recognizing this challenge, some FR approaches have started exploring ways to reduce the time complexity of the fully-connected layer in FR models. Unlike other approaches, this paper introduces a simple yet highly effective approach, Moving Haar Learning Rate (MHLR) scheduler, for scheduling the learning rate promptly and accurately in the training process. MHLR supports large-scale FR training with only one GPU, which is able to accelerate the model to 1/4 of its original training time without sacrificing more than 1% accuracy. More specifically, MHLR only needs $30$ hours to train the model ResNet100 on the dataset WebFace12M containing more than 12M face images with 0.6M identities. Extensive experiments validate the efficiency and effectiveness of MHLR.
- Abstract(参考訳): 顔認識(FR)は、大規模データセットの利用により大幅に進歩している。
大規模データセット上で複数のGPUでディープラーニングFRモデルをトレーニングすることは、今や一般的なプラクティスです。
実際、コンピューティングのパワーは、ディープラーニングの分野で基礎的で必要不可欠なリソースへと進化してきた。
ハードウェアリソースを十分に保持することなく、深いFRモデルをトレーニングすることはほぼ不可能である。
この課題を認識したいくつかのFRアプローチは、FRモデルにおける完全連結層の時間的複雑さを低減する方法を模索し始めた。
他の手法と異なり,本研究では,学習過程において,学習率を迅速かつ正確にスケジューリングするための,移動ハーアー学習率(MHLR)スケジューラを提案する。
MHLRは1つのGPUで大規模なFRトレーニングをサポートしており、1%以上の精度を犠牲にすることなく、オリジナルのトレーニング時間の1/4までモデルを加速することができる。
より具体的に言うと、MHLRはデータセットのWebFace12MでモデルResNet100をトレーニングするのに30ドルしか必要とせず、0.6MのIDを持つ1200万以上の顔画像を含んでいる。
大規模な実験は、MHLRの有効性と有効性を検証する。
関連論文リスト
- Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。
ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。
A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文 参考訳(メタデータ) (2025-01-09T20:19:01Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - Photon: Federated LLM Pre-Training [17.368070785118654]
我々は、フェデレーション・エンド・ツー・エンドLLMトレーニングのための最初の完全システムであるPhotonを紹介する。
我々は、Photonが7Bまでのモデルサイズをフェデレートでトレーニングできる一方で、集中的な事前トレーニングよりもさらに複雑であることを示す。
論文 参考訳(メタデータ) (2024-11-05T08:48:25Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Lancet: Accelerating Mixture-of-Experts Training via Whole Graph Computation-Communication Overlapping [14.435637320909663]
MoEテクニックは、DNNモデルパラメータのサイズを拡大する上で重要な役割を果たす。
既存の手法は、全てを専門家の計算でオーバーラップすることでこの問題を緩和しようとする。
本研究では,より広いトレーニンググラフレベルでのオーバーラップを考慮し,この課題の範囲を広げる。
コンパイラをベースとした最適化により,MoEモデルトレーニングを自動的に強化するシステムであるLancetにこれらの手法を実装した。
論文 参考訳(メタデータ) (2024-04-30T10:17:21Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Towards Federated Learning Under Resource Constraints via Layer-wise
Training and Depth Dropout [33.308067180286045]
クライアントが限られたリソースを持つ場合、フェデレーション学習を大規模モデルにスケールすることは難しい。
我々は、クライアント毎のメモリ、計算、通信コストを同時に削減するために、フェデレート・レイヤワイズ・ラーニングを導入します。
また、トレーニング中に凍結層をランダムにドロップする補完技術であるFederated Depth Dropoutを導入し、リソース使用量をさらに削減する。
論文 参考訳(メタデータ) (2023-09-11T03:17:45Z) - SPEED: Streaming Partition and Parallel Acceleration for Temporal
Interaction Graph Embedding [22.68416593780539]
本稿では,時間的相互作用グラフ埋め込みのためのストリームエッジ分割と並列高速化という,新たなトレーニング手法を提案する。
提案手法は,計算資源,計算時間,下流タスク性能のバランスが良好である。
7つの実世界のデータセットにまたがる実証的な検証は、トレーニング速度を最大19.29倍に向上させる可能性を実証している。
論文 参考訳(メタデータ) (2023-08-27T15:11:44Z) - From Actions to Events: A Transfer Learning Approach Using Improved Deep
Belief Networks [1.0554048699217669]
本稿では,エネルギーモデルを用いた行動認識からイベント認識への知識マッピング手法を提案する。
このようなモデルはすべてのフレームを同時に処理し、学習プロセスを通じて空間的および時間的情報を運ぶことができる。
論文 参考訳(メタデータ) (2022-11-30T14:47:10Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face
Learning [54.13876727413492]
多くの現実世界の顔認識シナリオでは、トレーニングデータセットの深さは浅いため、IDごとに2つの顔画像しか利用できません。
非均一なサンプルの増加により、このような問題はより一般的なケース、すなわち長い尾の顔学習に変換される。
これらの問題に対処するために,マルチエージェントセミシアントレーニング(masst)という高度なソリューションを導入する。
広範な実験と比較は、長い尾と浅い顔学習のためのMASSTの利点を示しています。
論文 参考訳(メタデータ) (2021-05-10T04:57:32Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文 参考訳(メタデータ) (2020-08-08T03:40:27Z) - Semi-Siamese Training for Shallow Face Learning [78.7386209619276]
セミ・シームズ・トレーニング(SST)という新しいトレーニング手法を導入する。
一対のセミ・シームズネットワークが前方伝播構造を構成し、トレーニング損失を更新ギャラリーキューで計算する。
提案手法は外部依存を伴わずに開発されており,既存の損失関数やネットワークアーキテクチャと柔軟に統合することができる。
論文 参考訳(メタデータ) (2020-07-16T15:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。