論文の概要: InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep
Recommendation Models
- arxiv url: http://arxiv.org/abs/2308.08500v1
- Date: Sun, 13 Aug 2023 18:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:23:33.048856
- Title: InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep
Recommendation Models
- Title(参考訳): intune:深いレコメンデーションモデルのための強化学習ベースのデータパイプライン最適化
- Authors: Kabir Nagrecha, Lingyi Liu, Pablo Delgado, Prasanna Padmanabhan
- Abstract要約: 深層学習に基づくレコメンデータモデル(DLRM)は多くの現代のレコメンデータシステムにおいて重要なコンポーネントとなっている。
典型的なディープラーニングトレーニングジョブはモデル実行に支配されているが、DLRMトレーニングパフォーマンスの最も重要な要素は、しばしばオンラインデータの取り込みである。
- 参考スコア(独自算出の注目度): 3.7414278978078204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning-based recommender models (DLRMs) have become an essential
component of many modern recommender systems. Several companies are now
building large compute clusters reserved only for DLRM training, driving new
interest in cost- and time- saving optimizations. The systems challenges faced
in this setting are unique; while typical deep learning training jobs are
dominated by model execution, the most important factor in DLRM training
performance is often online data ingestion.
In this paper, we explore the unique characteristics of this data ingestion
problem and provide insights into DLRM training pipeline bottlenecks and
challenges. We study real-world DLRM data processing pipelines taken from our
compute cluster at Netflix to observe the performance impacts of online
ingestion and to identify shortfalls in existing pipeline optimizers. We find
that current tooling either yields sub-optimal performance, frequent crashes,
or else requires impractical cluster re-organization to adopt. Our studies lead
us to design and build a new solution for data pipeline optimization, InTune.
InTune employs a reinforcement learning (RL) agent to learn how to distribute
the CPU resources of a trainer machine across a DLRM data pipeline to more
effectively parallelize data loading and improve throughput. Our experiments
show that InTune can build an optimized data pipeline configuration within only
a few minutes, and can easily be integrated into existing training workflows.
By exploiting the responsiveness and adaptability of RL, InTune achieves higher
online data ingestion rates than existing optimizers, thus reducing idle times
in model execution and increasing efficiency. We apply InTune to our real-world
cluster, and find that it increases data ingestion throughput by as much as
2.29X versus state-of-the-art data pipeline optimizers while also improving
both CPU & GPU utilization.
- Abstract(参考訳): 深層学習に基づくレコメンデータモデル(DLRM)は多くの現代のレコメンデータシステムにおいて重要なコンポーネントとなっている。
現在、いくつかの企業がDLRMトレーニング用にのみ予約された大規模な計算クラスタを構築しており、コストと時間節約の最適化に新たな関心を喚起している。
典型的なディープラーニングトレーニングジョブはモデルの実行によって支配されるが、dlrmトレーニングのパフォーマンスにおいて最も重要な要素は、多くの場合、オンラインデータ取り込みである。
本稿では,このデータ取り込み問題の特徴を考察し,DLRMトレーニングパイプラインのボトルネックと課題について考察する。
Netflixの計算クラスタから取得した実世界のDLRMデータ処理パイプラインを調査し、オンライン摂取によるパフォーマンスへの影響を観察し、既存のパイプラインオプティマイザの欠点を特定する。
現在のツールでは、サブ最適パフォーマンス、頻繁なクラッシュ、あるいは非現実的なクラスタ再編成が必要です。
私たちの研究は、データパイプライン最適化のための新しいソリューションInTuneの設計と構築につながります。
InTuneは強化学習(RL)エージェントを使用して、DLRMデータパイプラインにトレーナーマシンのCPUリソースを分散する方法を学び、データのロードをより効率的に並列化し、スループットを向上させる。
我々の実験によると、InTuneは数分で最適化されたデータパイプライン構成を構築でき、既存のトレーニングワークフローに簡単に統合できる。
RLの応答性と適応性を活用することで、InTuneは既存のオプティマイザよりも高いオンラインデータ取り込み率を実現し、モデル実行時のアイドル時間を短縮し、効率を向上する。
intuneを実世界のクラスタに適用し、データ取り込みスループットを最先端のデータパイプラインオプティマイザと比較して最大2.29倍向上するとともに、cpuとgpuの利用性も向上しています。
関連論文リスト
- OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。
OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。
評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文 参考訳(メタデータ) (2024-06-11T18:55:04Z) - Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework
for Enhancing Model Performance and Efficiency [9.460023981858319]
本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。
AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。
トレーニングデータの最大10~30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
論文 参考訳(メタデータ) (2023-12-09T16:01:21Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - RecD: Deduplication for End-to-End Deep Learning Recommendation Model
Training Infrastructure [3.991664287163157]
RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。
本稿では,産業規模のDLRMトレーニングシステムにおいて,RecDが最大2.48倍,1.79倍,3.71倍のスループットとストレージ効率を向上させる方法を示す。
論文 参考訳(メタデータ) (2022-11-09T22:21:19Z) - dPRO: A Generic Profiling and Optimization System for Expediting
Distributed DNN Training [12.413533491501548]
本稿では,分散トレーニングシステムの性能ボトルネックを特定するツールとして,dPROを提案する。
我々は,複数のディープラーニングフレームワーク(PyTorch,MXNet,AllReduce,Serverアーキテクチャ)と代表的通信方式にdPROを実装した。
大規模な実験により、dPROは、ほとんどのケースで5%のエラーで様々な環境での分散トレーニングのパフォーマンスを予測し、ベースラインを最大87.1%上回る最適化戦略を見出した。
論文 参考訳(メタデータ) (2022-05-05T07:15:25Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。