Fugu-MT 論文翻訳(概要): Profiling and Improving the PyTorch Dataloader for high-latency Storage: A Technical Report

論文の概要: Profiling and Improving the PyTorch Dataloader for high-latency Storage: A Technical Report

arxiv url: http://arxiv.org/abs/2211.04908v1
Date: Wed, 9 Nov 2022 14:16:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 18:12:19.669506
Title: Profiling and Improving the PyTorch Dataloader for high-latency Storage: A Technical Report
Title（参考訳）: 高速ストレージのためのpytorchデータローダのプロファイリングと改善:技術報告
Authors: Ivan Svogor, Christian Eichenberger, Markus Spanring, Moritz Neun, Michael Kopp
Abstract要約: この作業は、PyTorch Frameworkのデータロードパイプラインに焦点を当てている。画像などの多数のファイルのロードを伴う分類タスクでは、トレーニングウォールタイムが大幅に改善できることが示される。新たに修正したConcurrentDataloaderを使えば、GPU使用率の改善や、バッチ読み込み時間の最大12倍の大幅な削減が可能になります。
参考スコア（独自算出の注目度）: 0.7349727826230862
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: A growing number of Machine Learning Frameworks recently made Deep Learning accessible to a wider audience of engineers, scientists, and practitioners, by allowing straightforward use of complex neural network architectures and algorithms. However, since deep learning is rapidly evolving, not only through theoretical advancements but also with respect to hardware and software engineering, ML frameworks often lose backward compatibility and introduce technical debt that can lead to bottlenecks and sub-optimal resource utilization. Moreover, the focus is in most cases not on deep learning engineering, but rather on new models and theoretical advancements. In this work, however, we focus on engineering, more specifically on the data loading pipeline in the PyTorch Framework. We designed a series of benchmarks that outline performance issues of certain steps in the data loading process. Our findings show that for classification tasks that involve loading many files, like images, the training wall-time can be significantly improved. With our new, modified ConcurrentDataloader we can reach improvements in GPU utilization and significantly reduce batch loading time, up to 12X. This allows for the use of the cloud-based, S3-like object storage for datasets, and have comparable training time as if datasets are stored on local drives.
Abstract（参考訳）: 最近、多くの機械学習フレームワークが、複雑なニューラルネットワークアーキテクチャとアルゴリズムを簡単に使用することで、エンジニア、科学者、実践者の幅広いオーディエンスにディープラーニングをアクセス可能にしている。しかし、ディープラーニングは理論的な進歩だけでなく、ハードウェアやソフトウェアエンジニアリングにおいても急速に進化しているため、MLフレームワークは後方互換性を失い、ボトルネックや準最適リソース利用につながる技術的負債をもたらすことが多い。さらに、ほとんどの場合、ディープラーニングエンジニアリングではなく、新しいモデルや理論的な進歩に焦点を当てている。しかしこの作業では、エンジニアリング、特にPyTorch Frameworkのデータ読み込みパイプラインに重点を置いています。データローディングプロセスの特定のステップのパフォーマンス問題を概説する一連のベンチマークを設計した。画像など多数のファイルをロードする分類タスクでは,トレーニングウォールタイムが大幅に改善される可能性が示唆された。新しい変更済みのconcurrentdataloaderを使えば、gpuの利用が改善され、バッチの読み込み時間が最大12倍削減できます。これにより、クラウドベースのS3ライクなオブジェクトストレージをデータセットに使用でき、データセットがローカルドライブに格納されているようにトレーニング時間も同等になる。

関連論文リスト

OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training [17.215899004049778]
産業レベルの分散データロードアーキテクチャであるOVERLORDを3つのイノベーションで紹介する。 OVERLORDは、(1)エンドツーエンドのトレーニングスループットの改善、(2)CPUメモリ使用量の最低3.6倍の削減を実現している。
論文参考訳（メタデータ） (2025-04-14T03:31:22Z)
Code generation and runtime techniques for enabling data-efficient deep learning training on GPUs [8.00550423071637]
この論文は、特にグラフニューラルネットワーク(GNN)と大規模言語モデル(LLM)において、代表的深層学習タスクにおけるデータ非効率を解析する。これらの課題を軽減し、PyTorchスタック内でこれらの最適化をシームレスに実装するための、新しいランタイムとコード生成技術を提案する。
論文参考訳（メタデータ） (2024-12-06T03:20:03Z)
Bullion: A Column Store for Machine Learning [4.096087402737292]
本稿では,機械学習処理に適した列記憶システムであるBullionについて述べる。 Bundyはデータコンプライアンスの複雑さに対処し、長いシーケンススパース機能のエンコーディングを最適化し、拡張可能なプロジェクションを効率的に管理し、ストレージに機能量子化を導入し、包括的なカスケードエンコーディングフレームワークを提供する。予備的な実験結果と理論的分析は、機械学習ワークロードのユニークな要求に直面して、Bullionが強力なパフォーマンスを提供する能力が改善されたことを示している。
論文参考訳（メタデータ） (2024-04-13T05:01:54Z)
Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。 DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文参考訳（メタデータ） (2023-08-21T07:24:29Z)
Continual Learning with Transformers for Image Classification [12.028617058465333]
コンピュータビジョンでは、ニューラルネットワークモデルは、過去に何を学んだかを忘れずに、新しい概念を継続的に学習する。本研究では,適応型適応器の蒸留法 (ADA) を開発した。本手法は,モデルを再学習することなく,優れた予測性能を維持することを実証的に示す。
論文参考訳（メタデータ） (2022-06-28T15:30:10Z)
Pushing the Limits of Simple Pipelines for Few-Shot Learning: External Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文参考訳（メタデータ） (2022-04-15T02:55:58Z)
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文参考訳（メタデータ） (2022-02-17T14:31:58Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
Continuum: Simple Management of Complex Continual Learning Scenarios [1.52292571922932]
連続学習は、非IDデータの設定に特化した機械学習サブフィールドである。継続的な学習の課題は、データ分散ドリフトに対処しながら、増え続ける知識を学習できるアルゴリズムを作ることである。データローダの小さなエラーはアルゴリズムの結果に重大な影響を与える。
論文参考訳（メタデータ） (2021-02-11T20:29:13Z)
Importance of Data Loading Pipeline in Training Deep Neural Networks [2.127049691404299]
大規模なモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。データ読み込みを高速化するためにバイナリデータフォーマットと、データ拡張を高速化するためにNVIDIA DALIを比較した。本研究は、そのような専用ツールを使用する場合、20%から40%の順に改善されていることを示す。
論文参考訳（メタデータ） (2020-04-21T14:19:48Z)
How to 0wn NAS in Your Spare Time [11.997555708723523]
本研究では,キャッシュ側チャネル攻撃による情報漏洩を利用して,新しいディープラーニングシステムの主要コンポーネントを再構築するアルゴリズムを設計する。我々は、マルウェア検出のための新しいデータ前処理パイプラインであるMalConvと、画像ネット分類のための新しいネットワークアーキテクチャであるProxylessNAS CPU-NASを再構築できることを実験的に実証した。
論文参考訳（メタデータ） (2020-02-17T05:40:55Z)
Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文参考訳（メタデータ） (2020-02-10T16:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。