論文の概要: Accelerating Transfer Learning with Near-Data Computation on Cloud
Object Stores
- arxiv url: http://arxiv.org/abs/2210.08650v1
- Date: Sun, 16 Oct 2022 22:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:40:46.867081
- Title: Accelerating Transfer Learning with Near-Data Computation on Cloud
Object Stores
- Title(参考訳): クラウドオブジェクトストア上のニアデータ計算によるトランスファー学習の高速化
- Authors: Arsany Guirguis, Diana Petrescu, Florin Dinu, Do Le Quoc, Javier
Picorel, Rachid Guerraoui
- Abstract要約: 本稿では,移動学習(TL)を分散クラウドの自然な適合性として同定する。
本稿では、TLの微調整フェーズのユニークな構造を利用して、上記の制約に柔軟に対処する方法を示す。
我々は,ユーザに対して透過的なまま,計算層とストレージ層にまたがるTL処理システムであるHAPIを提案する。
- 参考スコア(独自算出の注目度): 5.057544107331778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Storage disaggregation is fundamental to today's cloud due to cost and
scalability benefits. Unfortunately, this design must cope with an inherent
network bottleneck between the storage and the compute tiers. The widely
deployed mitigation strategy is to provide computational resources next to
storage to push down a part of an application and thus reduce the amount of
data transferred to the compute tier. Overall, users of disaggregated storage
need to consider two main constraints: the network may remain a bottleneck, and
the storage-side computational resources are limited. This paper identifies
transfer learning (TL) as a natural fit for the disaggregated cloud. TL,
famously described as the next driver of ML commercial success, is widely
popular and has broad-range applications. We show how to leverage the unique
structure of TL's fine-tuning phase (i.e., a combination of feature extraction
and training) to flexibly address the aforementioned constraints and improve
both user and operator-centric metrics. The key to improving user-perceived
performance is to mitigate the network bottleneck by carefully splitting the TL
deep neural network (DNN) such that feature extraction is, partially or
entirely, executed next to storage. Crucially, such splitting enables
decoupling the batch size of feature extraction from the training batch size,
facilitating efficient storage-side batch size adaptation to increase
concurrency in the storage tier while avoiding out-of-memory errors. Guided by
these insights, we present HAPI, a processing system for TL that spans the
compute and storage tiers while remaining transparent to the user. Our
evaluation with several DNNs, such as ResNet, VGG, and Transformer, shows up to
11x improvement in application runtime and up to 8.3x reduction in the data
transferred from the storage to the compute tier compared to running the
computation in the compute tier.
- Abstract(参考訳): ストレージのデアグリゲーションは、コストとスケーラビリティのメリットにより、今日のクラウドに不可欠である。
残念ながら、この設計はストレージと計算層の間のネットワークボトルネックに対処する必要がある。
広くデプロイされている緩和戦略は、ストレージの横に計算リソースを提供し、アプリケーションの一部をプッシュダウンし、計算層に転送されるデータ量を減らすことである。
全体として、分散ストレージのユーザは2つの主な制約を考慮する必要がある:ネットワークはボトルネックのままであり、ストレージ側の計算リソースは限られている。
本稿では,移動学習(TL)が分散クラウドの自然な適合性を示す。
MLの商業的成功の次のドライバーとして有名なTLは、広く人気があり、幅広い用途がある。
tlの微調整フェーズ(機能抽出とトレーニングの組み合わせ)のユニークな構造を活用して、上記の制約を柔軟に対処し、ユーザとオペレータ中心のメトリクスの両方を改善する方法を示す。
ユーザ認識のパフォーマンス向上の鍵は、TLディープニューラルネットワーク(DNN)を慎重に分割することで、ストレージの横で部分的にあるいは完全に実行されるようにすることで、ネットワークボトルネックを軽減することである。
このような分割は、トレーニングバッチサイズから特徴抽出のバッチサイズを分離し、効率的なストレージ側バッチサイズ適応を容易にし、メモリ外エラーを回避しながらストレージ層の並行性を向上させる。
これらの知見に導かれたHAPIは、ユーザに対して透過的でありながら、計算層とストレージ層にまたがるTLの処理システムである。
ResNet、VGG、TransformerなどのDNNによる評価では、アプリケーションランタイムの最大11倍の改善と、計算層での計算よりもストレージから計算層へ転送されるデータの最大8.3倍の削減が見られた。
関連論文リスト
- LR-CNN: Lightweight Row-centric Convolutional Neural Network Training
for Memory Reduction [21.388549904063538]
多層構造を持つ畳み込みニューラルネットワークは急速に進歩している。
現在の取り組みは、追加のハードウェアコストによる外部補助ソリューションによるボトルネックの緩和と、潜在的な精度のペナルティによる内部修正によって緩和されている。
従来のレイヤ・バイ・レイヤ(カラム)データフロールールを破ります。現在では,すべての畳み込みレイヤを通じて,新たな操作が行に再編成されています。
この軽量な設計により、ほとんどの中間データを精度を損なうことなく取り除くことができる。
論文 参考訳(メタデータ) (2024-01-21T12:19:13Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - Efficient Data-Plane Memory Scheduling for In-Network Aggregation [14.52822604368543]
我々は、$underlineE$fficient Switch Memory $underlineS$cheduler for In-Network $underlineA$ggregationを提案する。
コアでは、ESAはアグリゲータ割り当てプリミティブを強制し、データプレーンで優先度スケジューリングを導入する。
実験の結果、ESAは平均的なJCTを最大$1.35タイムで改善できることがわかった。
論文 参考訳(メタデータ) (2022-01-17T13:29:18Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。