論文の概要: Accelerating Transfer Learning with Near-Data Computation on Cloud
Object Stores
- arxiv url: http://arxiv.org/abs/2210.08650v1
- Date: Sun, 16 Oct 2022 22:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:40:46.867081
- Title: Accelerating Transfer Learning with Near-Data Computation on Cloud
Object Stores
- Title(参考訳): クラウドオブジェクトストア上のニアデータ計算によるトランスファー学習の高速化
- Authors: Arsany Guirguis, Diana Petrescu, Florin Dinu, Do Le Quoc, Javier
Picorel, Rachid Guerraoui
- Abstract要約: 本稿では,移動学習(TL)を分散クラウドの自然な適合性として同定する。
本稿では、TLの微調整フェーズのユニークな構造を利用して、上記の制約に柔軟に対処する方法を示す。
我々は,ユーザに対して透過的なまま,計算層とストレージ層にまたがるTL処理システムであるHAPIを提案する。
- 参考スコア(独自算出の注目度): 5.057544107331778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Storage disaggregation is fundamental to today's cloud due to cost and
scalability benefits. Unfortunately, this design must cope with an inherent
network bottleneck between the storage and the compute tiers. The widely
deployed mitigation strategy is to provide computational resources next to
storage to push down a part of an application and thus reduce the amount of
data transferred to the compute tier. Overall, users of disaggregated storage
need to consider two main constraints: the network may remain a bottleneck, and
the storage-side computational resources are limited. This paper identifies
transfer learning (TL) as a natural fit for the disaggregated cloud. TL,
famously described as the next driver of ML commercial success, is widely
popular and has broad-range applications. We show how to leverage the unique
structure of TL's fine-tuning phase (i.e., a combination of feature extraction
and training) to flexibly address the aforementioned constraints and improve
both user and operator-centric metrics. The key to improving user-perceived
performance is to mitigate the network bottleneck by carefully splitting the TL
deep neural network (DNN) such that feature extraction is, partially or
entirely, executed next to storage. Crucially, such splitting enables
decoupling the batch size of feature extraction from the training batch size,
facilitating efficient storage-side batch size adaptation to increase
concurrency in the storage tier while avoiding out-of-memory errors. Guided by
these insights, we present HAPI, a processing system for TL that spans the
compute and storage tiers while remaining transparent to the user. Our
evaluation with several DNNs, such as ResNet, VGG, and Transformer, shows up to
11x improvement in application runtime and up to 8.3x reduction in the data
transferred from the storage to the compute tier compared to running the
computation in the compute tier.
- Abstract(参考訳): ストレージのデアグリゲーションは、コストとスケーラビリティのメリットにより、今日のクラウドに不可欠である。
残念ながら、この設計はストレージと計算層の間のネットワークボトルネックに対処する必要がある。
広くデプロイされている緩和戦略は、ストレージの横に計算リソースを提供し、アプリケーションの一部をプッシュダウンし、計算層に転送されるデータ量を減らすことである。
全体として、分散ストレージのユーザは2つの主な制約を考慮する必要がある:ネットワークはボトルネックのままであり、ストレージ側の計算リソースは限られている。
本稿では,移動学習(TL)が分散クラウドの自然な適合性を示す。
MLの商業的成功の次のドライバーとして有名なTLは、広く人気があり、幅広い用途がある。
tlの微調整フェーズ(機能抽出とトレーニングの組み合わせ)のユニークな構造を活用して、上記の制約を柔軟に対処し、ユーザとオペレータ中心のメトリクスの両方を改善する方法を示す。
ユーザ認識のパフォーマンス向上の鍵は、TLディープニューラルネットワーク(DNN)を慎重に分割することで、ストレージの横で部分的にあるいは完全に実行されるようにすることで、ネットワークボトルネックを軽減することである。
このような分割は、トレーニングバッチサイズから特徴抽出のバッチサイズを分離し、効率的なストレージ側バッチサイズ適応を容易にし、メモリ外エラーを回避しながらストレージ層の並行性を向上させる。
これらの知見に導かれたHAPIは、ユーザに対して透過的でありながら、計算層とストレージ層にまたがるTLの処理システムである。
ResNet、VGG、TransformerなどのDNNによる評価では、アプリケーションランタイムの最大11倍の改善と、計算層での計算よりもストレージから計算層へ転送されるデータの最大8.3倍の削減が見られた。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Breaking MLPerf Training: A Case Study on Optimizing BERT [9.486916730173661]
本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。
分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。
本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
論文 参考訳(メタデータ) (2024-02-04T11:12:17Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - tf.data service: A Case for Disaggregating ML Input Data Processing [4.851146762916078]
機械学習(ML)計算はGPUやTPUなどの高価なハードウェア上で一般的に実行され、高いFLOPとワット当たりのパフォーマンスを提供する。
データストールを避けるため、ML計算に使用されるアクセラレータコア毎に入力データ処理に必要なホストCPUとRAMはジョブによって異なる。
tf.data 上に構築されたオープンソースの非集約型入力データ処理サービスである tf.data について述べる。
論文 参考訳(メタデータ) (2022-10-26T16:15:45Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - HeterPS: Distributed Deep Learning With Reinforcement Learning Based
Scheduling in Heterogeneous Environments [37.55572042288321]
ニューラルネットワーク(DNN)のトレーニングプロセスは、多くのスパースな特徴を持つ大規模な入力データを扱うのが一般的である。
Paddle-HeterPSは分散アーキテクチャとReinforcement Reinforcement (RL)ベースのスケジューリング手法で構成されている。
パドル・ヘターPSはスループット(14.5倍高い)と金銭的コスト(312.3%小さい)で最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-11-20T17:09:15Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。