Fugu-MT 論文翻訳(概要): TensorSocket: Shared Data Loading for Deep Learning Training

論文の概要: TensorSocket: Shared Data Loading for Deep Learning Training

arxiv url: http://arxiv.org/abs/2409.18749v1
Date: Fri, 27 Sep 2024 13:39:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 14:25:07.506840
Title: TensorSocket: Shared Data Loading for Deep Learning Training
Title（参考訳）: TensorSocket: ディープラーニングトレーニングのための共有データローディング
Authors: Ties Robroek, Neil Kim Nielsen, Pınar Tözün,
Abstract要約: ディープラーニングトレーニングは反復的かつリソース集約的なプロセスである。 socketは、同じデータローダを共有する同時トレーニングプロセスを可能にする。評価の結果,データ共有なしでは実現不可能なシナリオが実現でき,トレーニングのスループットを最大で100%向上できることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training deep learning models is a repetitive and resource-intensive process. Data scientists often train several models before landing on set of parameters (e.g., hyper-parameter tuning), model architecture (e.g., neural architecture search), among other things that yields the highest accuracy. The computational efficiency of these training tasks depends highly on how well we can supply the training process with training data. The repetitive nature of these tasks results in the same data processing pipelines running over and over exacerbating the need for and costs of computational resources. In this paper, we present Tensorsocket to reduce the computational needs of deep learning training by enabling simultaneous training processes to share the same data loader. Tensorsocket mitigates CPU-side bottlenecks in cases where the collocated training workloads have high throughput on GPU, but are held back by lower data-loading throughput on CPU. Tensorsocket achieves this by reducing redundant computations across collocated training processes and leveraging modern GPU-GPU interconnects. We demonstrate the hardware- and pipeline-agnostic nature of Tensorsocket and evaluate it using a variety of training scenarios. Our evaluation shows that Tensorsocket enables scenarios that are infeasible without data sharing, increases training throughput by up to $100\%$, and when utilizing cloud instances, Tensorsocket achieves cost savings of $50\%$ by reducing the hardware resource needs on the CPU side. Furthermore, Tensorsocket outperforms the state-of-the-art solutions for shared data loading such as CoorDL and Joader. It is easier to use, maintain, and deploy, and either achieves higher or matches the throughput of other solutions while requiring less CPU resources.
Abstract（参考訳）: ディープラーニングモデルのトレーニングは、反復的かつリソース集約的なプロセスである。データサイエンティストは、パラメータセット(例:ハイパーパラメータチューニング)、モデルアーキテクチャ(例:ニューラルアーキテクチャサーチ)に着地する前に、いくつかのモデルをトレーニングすることが多い。これらのトレーニングタスクの計算効率は、トレーニングデータによるトレーニングプロセスの供給方法に大きく依存する。これらのタスクの反復的な性質は、計算リソースの必要性とコストを悪化させるため、同じデータ処理パイプラインが何度も実行されます。本稿では,データローダを同時に共有することで,ディープラーニング学習の計算的ニーズを軽減するために,Tensorsocketを提案する。 Tensorsocketは、コロケーションされたトレーニングワークロードがGPU上で高いスループットを持つ場合のCPU側のボトルネックを軽減するが、CPU上でのデータローディングスループットの低下によって抑制される。 Tensorsocketは、コロケーションされたトレーニングプロセス間の冗長な計算を削減し、最新のGPU-GPU相互接続を活用することで、これを実現する。我々は、Tensorsocketのハードウェアとパイプラインに依存しない性質を実証し、さまざまなトレーニングシナリオを用いて評価する。我々の評価では、Tensorsocketはデータ共有なしでは実現不可能なシナリオを可能にし、トレーニングスループットを最大100\%$に向上させ、クラウドインスタンスを利用する場合、CPU側のハードウェアリソースの必要性を減らし、50\%$のコスト削減を実現している。さらに、TensorsocketはCoorDLやJoaderといった共有データローディングの最先端ソリューションよりも優れています。使用、メンテナンス、デプロイが容易で、CPUリソースを少なくしながら、より高いか他のソリューションのスループットにマッチする。

関連論文リスト

Code generation and runtime techniques for enabling data-efficient deep learning training on GPUs [8.00550423071637]
この論文は、特にグラフニューラルネットワーク(GNN)と大規模言語モデル(LLM)において、代表的深層学習タスクにおけるデータ非効率を解析する。これらの課題を軽減し、PyTorchスタック内でこれらの最適化をシームレスに実装するための、新しいランタイムとコード生成技術を提案する。
論文参考訳（メタデータ） (2024-12-06T03:20:03Z)
Efficient Tabular Data Preprocessing of ML Pipelines [9.23424733090734]
データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。 Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。 Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
論文参考訳（メタデータ） (2024-09-23T11:07:57Z)
Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文参考訳（メタデータ） (2024-03-17T13:06:29Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。 DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文参考訳（メタデータ） (2023-08-21T07:24:29Z)
FFCV: Accelerating Training by Removing Data Bottlenecks [84.89623507733963]
本稿では,機械学習モデルトレーニングを容易かつ高速に行うためのライブラリであるFFCVを紹介する。トレーニングプロセスから(しばしば微妙な)データのボトルネックを取り除くことで、モデルトレーニングを高速化する。詳細なインストール手順、ドキュメンテーション、Slackサポートチャネルはhttps://ffcv.io/.com/で公開されている。
論文参考訳（メタデータ） (2023-06-21T19:06:41Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文参考訳（メタデータ） (2022-02-17T14:31:58Z)
HeterPS: Distributed Deep Learning With Reinforcement Learning Based Scheduling in Heterogeneous Environments [37.55572042288321]
ニューラルネットワーク(DNN)のトレーニングプロセスは、多くのスパースな特徴を持つ大規模な入力データを扱うのが一般的である。 Paddle-HeterPSは分散アーキテクチャとReinforcement Reinforcement (RL)ベースのスケジューリング手法で構成されている。パドル・ヘターPSはスループット(14.5倍高い)と金銭的コスト(312.3%小さい)で最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2021-11-20T17:09:15Z)
Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文参考訳（メタデータ） (2021-10-03T05:45:06Z)
Reservoir Stack Machines [77.12475691708838]
メモリ拡張ニューラルネットワークは、情報ストレージを必要とするタスクをサポートするために、明示的なメモリを備えたリカレントニューラルネットワークを備える。本研究では,全ての決定論的文脈自由言語を確実に認識できるモデルである貯水池スタックマシンを導入する。以上の結果から, 貯水池スタックマシンは, 訓練データよりも長い試験シーケンスでもゼロ誤差を達成できることがわかった。
論文参考訳（メタデータ） (2021-05-04T16:50:40Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)
Importance of Data Loading Pipeline in Training Deep Neural Networks [2.127049691404299]
大規模なモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。データ読み込みを高速化するためにバイナリデータフォーマットと、データ拡張を高速化するためにNVIDIA DALIを比較した。本研究は、そのような専用ツールを使用する場合、20%から40%の順に改善されていることを示す。
論文参考訳（メタデータ） (2020-04-21T14:19:48Z)
Characterizing and Modeling Distributed Training with Transient Cloud GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文参考訳（メタデータ） (2020-04-07T01:49:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。