論文の概要: Preparation Meets Opportunity: Enhancing Data Preprocessing for ML Training With Seneca
- arxiv url: http://arxiv.org/abs/2511.13724v1
- Date: Wed, 24 Sep 2025 21:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.187027
- Title: Preparation Meets Opportunity: Enhancing Data Preprocessing for ML Training With Seneca
- Title(参考訳): 機械学習トレーニングのためのデータ前処理の強化 - Seneca氏の講演より
- Authors: Omkar Desai, Ziyang Jiao, Shuyi Pei, Janki Bhimani, Bryan S. Kim,
- Abstract要約: 入力データ前処理は、現代のシステムで機械学習(ML)モデルを同時にトレーニングする場合、一般的なボトルネックである。
キャッシュパーティショニングとデータサンプリングを最適化したデータロードシステムであるSenecaについて述べる。
Seneca は PyTorch と比較してmepan を 45.23% 削減し、次の最高のデータローダに比べてデータ処理のスループットを 3.45 倍に向上させる。
- 参考スコア(独自算出の注目度): 0.6959424271538031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Input data preprocessing is a common bottleneck when concurrently training multimedia machine learning (ML) models in modern systems. To alleviate these bottlenecks and reduce the training time for concurrent jobs, we present Seneca, a data loading system that optimizes cache partitioning and data sampling for the data storage and ingestion (DSI) pipeline. The design of Seneca contains two key techniques. First, Seneca uses a performance model for the data pipeline to optimally partition the cache for three different forms of data (encoded, decoded, and augmented). Second, Seneca opportunistically serves cached data over uncached ones during random batch sampling so that concurrent jobs benefit from each other. We implement Seneca by modifying PyTorch and demonstrate its effectiveness by comparing it against several state-of-the-art caching systems for DNN training. Seneca reduces the makespan by 45.23% compared to PyTorch and increases data processing throughput by up to 3.45x compared to the next best dataloader.
- Abstract(参考訳): 入力データ前処理は、現代のシステムでマルチメディア機械学習(ML)モデルを同時にトレーニングする場合、一般的なボトルネックである。
これらのボトルネックを緩和し、同時ジョブのトレーニング時間を短縮するために、キャッシュのパーティショニングとデータサンプリングを最適化するデータローディングシステムであるSeecaを、データストレージとインジェクション(DSI)パイプラインに導入する。
Senecaの設計には2つの重要なテクニックが含まれている。
まず、Senecaはデータパイプラインのパフォーマンスモデルを使用して、3種類のデータ(エンコード、デコード、拡張)に対してキャッシュを最適に分割する。
第二に、Seenecaはランダムなバッチサンプリング中にキャッシュされたデータを不規則に提供し、並行ジョブが互いに恩恵を受けるようにします。
我々は、PyTorchを修正してSenecaを実装し、DNNトレーニングのためのいくつかの最先端キャッシュシステムと比較し、その効果を実証する。
Seneca は PyTorch と比較してmepan を 45.23% 削減し、次の最高のデータローダに比べてデータ処理のスループットを 3.45 倍に向上させる。
関連論文リスト
- CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - Efficient Tabular Data Preprocessing of ML Pipelines [9.23424733090734]
データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。
Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。
Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
論文 参考訳(メタデータ) (2024-09-23T11:07:57Z) - Data Augmentation for Traffic Classification [54.92823760790628]
Data Augmentation (DA) はコンピュータビジョン(CV)と自然言語処理(NLP)に広く採用されている技術である。
DAはネットワークのコンテキスト、特にトラフィック分類(TC)タスクにおいて、牽引力を得るのに苦労しています。
論文 参考訳(メタデータ) (2024-01-19T15:25:09Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Analyzing and Mitigating Data Stalls in DNN Training [7.444113272493349]
本稿では、入力データパイプラインがディープニューラルネットワーク(DNN)のトレーニング時間にどのように影響するかを、初めて包括的に分析する。
多くの場合、DNNのトレーニング時間はデータ停止時間(データのフェッチと前処理を待つ時間)に支配されています。
データストールを緩和するために、データローディングライブラリであるCoorDLに3つのシンプルだが効果的なテクニックを実装します。
論文 参考訳(メタデータ) (2020-07-14T02:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。