Fugu-MT 論文翻訳(概要): FastFace: Fast-converging Scheduler for Large-scale Face Recognition Training with One GPU

論文の概要: FastFace: Fast-converging Scheduler for Large-scale Face Recognition Training with One GPU

arxiv url: http://arxiv.org/abs/2404.11118v2
Date: Wed, 11 Dec 2024 15:14:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.310286
Title: FastFace: Fast-converging Scheduler for Large-scale Face Recognition Training with One GPU
Title（参考訳）: FastFace: 1つのGPUによる大規模顔認識トレーニングのための高速収束スケジューリング
Authors: Xueyuan Gong, Zhiquan Liu, Yain-Whar Si, Xiaochen Yuan, Ke Wang, Xiaoxiang Liu, Cong Lin, Xinyuan Zhang,
Abstract要約: 我々は、無視できる時間複雑性を持つ高速収束スケジューラであるFastFaceを提示する。実際にFastFaceは、顔認識モデルのトレーニングを、1%以上の精度を犠牲にすることなく、元の時間の4分の1まで加速することができる。
参考スコア（独自算出の注目度）: 10.656812733659514
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computing power has evolved into a foundational and indispensable resource in the area of deep learning, particularly in tasks such as Face Recognition (FR) model training on large-scale datasets, where multiple GPUs are often a necessity. Recognizing this challenge, some FR methods have started exploring ways to compress the fully-connected layer in FR models. Unlike other approaches, our observations reveal that without prompt scheduling of the learning rate (LR) during FR model training, the loss curve tends to exhibit numerous stationary subsequences. To address this issue, we introduce a novel LR scheduler leveraging Exponential Moving Average (EMA) and Haar Convolutional Kernel (HCK) to eliminate stationary subsequences, resulting in a significant reduction in converging time. However, the proposed scheduler incurs a considerable computational overhead due to its time complexity. To overcome this limitation, we propose FastFace, a fast-converging scheduler with negligible time complexity, i.e. O(1) per iteration, during training. In practice, FastFace is able to accelerate FR model training to a quarter of its original time without sacrificing more than 1% accuracy, making large-scale FR training feasible even with just one single GPU in terms of both time and space complexity. Extensive experiments validate the efficiency and effectiveness of FastFace. The code is publicly available at: https://github.com/amoonfana/FastFace
Abstract（参考訳）: 特に大規模なデータセット上での顔認識(FR)モデルトレーニングのようなタスクでは、複数のGPUが必要な場合が多い。この課題を認識したいくつかのFR法は、FRモデルの完全連結層を圧縮する方法を模索し始めた。他の手法とは異なり、FRモデルトレーニング中に学習率(LR)の迅速なスケジューリングがなければ、損失曲線は多くの定常部分列を示す傾向にある。この問題に対処するために,EMA(Exponential moving Average)とHCK(Haar Convolutional Kernel)を利用した新しいLRスケジューラを導入する。しかし、提案するスケジューラは、その時間的複雑さのため、かなりの計算オーバーヘッドを発生させる。この制限を克服するために、トレーニング中に1イテレーションあたりのO(1)という、無視できる時間複雑性を持つ高速収束スケジューラであるFastFaceを提案する。実際には、FastFaceはFRモデルのトレーニングを、1%以上の精度を犠牲にすることなく、元の時間の4分の1まで加速することができる。大規模な実験は、FastFaceの有効性と有効性を検証する。コードは、https://github.com/amoonfana/FastFaceで公開されている。

関連論文リスト

Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。 A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文参考訳（メタデータ） (2025-01-09T20:19:01Z)
DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文参考訳（メタデータ） (2024-11-29T17:31:47Z)
Photon: Federated LLM Pre-Training [17.368070785118654]
我々は、フェデレーション・エンド・ツー・エンドLLMトレーニングのための最初の完全システムであるPhotonを紹介する。我々は、Photonが7Bまでのモデルサイズをフェデレートでトレーニングできる一方で、集中的な事前トレーニングよりもさらに複雑であることを示す。
論文参考訳（メタデータ） (2024-11-05T08:48:25Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Lancet: Accelerating Mixture-of-Experts Training via Whole Graph Computation-Communication Overlapping [14.435637320909663]
MoEテクニックは、DNNモデルパラメータのサイズを拡大する上で重要な役割を果たす。既存の手法は、全てを専門家の計算でオーバーラップすることでこの問題を緩和しようとする。本研究では,より広いトレーニンググラフレベルでのオーバーラップを考慮し,この課題の範囲を広げる。コンパイラをベースとした最適化により,MoEモデルトレーニングを自動的に強化するシステムであるLancetにこれらの手法を実装した。
論文参考訳（メタデータ） (2024-04-30T10:17:21Z)
Always-Sparse Training by Growing Connections with Guided Stochastic Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文参考訳（メタデータ） (2024-01-12T21:32:04Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
Towards Federated Learning Under Resource Constraints via Layer-wise Training and Depth Dropout [33.308067180286045]
クライアントが限られたリソースを持つ場合、フェデレーション学習を大規模モデルにスケールすることは難しい。我々は、クライアント毎のメモリ、計算、通信コストを同時に削減するために、フェデレート・レイヤワイズ・ラーニングを導入します。また、トレーニング中に凍結層をランダムにドロップする補完技術であるFederated Depth Dropoutを導入し、リソース使用量をさらに削減する。
論文参考訳（メタデータ） (2023-09-11T03:17:45Z)
SPEED: Streaming Partition and Parallel Acceleration for Temporal Interaction Graph Embedding [22.68416593780539]
本稿では,時間的相互作用グラフ埋め込みのためのストリームエッジ分割と並列高速化という,新たなトレーニング手法を提案する。提案手法は,計算資源,計算時間,下流タスク性能のバランスが良好である。 7つの実世界のデータセットにまたがる実証的な検証は、トレーニング速度を最大19.29倍に向上させる可能性を実証している。
論文参考訳（メタデータ） (2023-08-27T15:11:44Z)
Learning Decorrelated Representations Efficiently Using Fast Fourier Transform [3.932322649674071]
高速フーリエ変換によりO(n d log d)時間で計算できる緩和された非相関正規化器を提案する。提案した正則化器は、ダウンストリームタスクにおける既存の正則化器に匹敵する精度を示す。
論文参考訳（メタデータ） (2023-01-04T12:38:08Z)
From Actions to Events: A Transfer Learning Approach Using Improved Deep Belief Networks [1.0554048699217669]
本稿では,エネルギーモデルを用いた行動認識からイベント認識への知識マッピング手法を提案する。このようなモデルはすべてのフレームを同時に処理し、学習プロセスを通じて空間的および時間的情報を運ぶことができる。
論文参考訳（メタデータ） (2022-11-30T14:47:10Z)
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文参考訳（メタデータ） (2022-11-20T21:48:25Z)
EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文参考訳（メタデータ） (2022-11-17T17:38:55Z)
RSC: Accelerating Graph Neural Networks Training via Randomized Sparse Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文参考訳（メタデータ） (2022-10-19T17:25:33Z)
Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文参考訳（メタデータ） (2021-09-26T19:56:45Z)
Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face Learning [54.13876727413492]
多くの現実世界の顔認識シナリオでは、トレーニングデータセットの深さは浅いため、IDごとに2つの顔画像しか利用できません。非均一なサンプルの増加により、このような問題はより一般的なケース、すなわち長い尾の顔学習に変換される。これらの問題に対処するために,マルチエージェントセミシアントレーニング(masst)という高度なソリューションを導入する。広範な実験と比較は、長い尾と浅い顔学習のためのMASSTの利点を示しています。
論文参考訳（メタデータ） (2021-05-10T04:57:32Z)
Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。本手法は画像内情報と画像間情報の両方を利用する。トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文参考訳（メタデータ） (2021-04-01T08:09:26Z)
GPU-Accelerated Primal Learning for Extremely Fast Large-Scale Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文参考訳（メタデータ） (2020-08-08T03:40:27Z)
Semi-Siamese Training for Shallow Face Learning [78.7386209619276]
セミ・シームズ・トレーニング(SST)という新しいトレーニング手法を導入する。一対のセミ・シームズネットワークが前方伝播構造を構成し、トレーニング損失を更新ギャラリーキューで計算する。提案手法は外部依存を伴わずに開発されており,既存の損失関数やネットワークアーキテクチャと柔軟に統合することができる。
論文参考訳（メタデータ） (2020-07-16T15:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。