論文の概要: A Transferable Approach for Partitioning Machine Learning Models on
Multi-Chip-Modules
- arxiv url: http://arxiv.org/abs/2112.04041v1
- Date: Tue, 7 Dec 2021 23:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 15:24:02.793227
- Title: A Transferable Approach for Partitioning Machine Learning Models on
Multi-Chip-Modules
- Title(参考訳): マルチチップモジュール上での機械学習モデルを分割するトランスファーブルアプローチ
- Authors: Xinfeng Xie, Prakash Prabhu, Ulysse Beaugnon, Phitchaya Mangpo
Phothilimthana, Sudip Roy, Azalia Mirhoseini, Eugene Brevdo, James Laudon,
Yanqi Zhou
- Abstract要約: マルチチップモジュール(MCM)は、機械学習アクセラレータの設計と製造コストを削減する。
本稿では, 深い強化学習フレームワークを用いて, 潜在的に無効な候補分割を出力し, 制約解法によって補正する戦略を提案する。
実ハードウェア上でのプロダクションスケールモデルBERTの評価により,RLポリシを用いて生成したパーティショニングのスループットが6.11%,5.85%向上したことが明らかとなった。
- 参考スコア(独自算出の注目度): 8.224904698490626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Chip-Modules (MCMs) reduce the design and fabrication cost of machine
learning (ML) accelerators while delivering performance and energy efficiency
on par with a monolithic large chip. However, ML compilers targeting MCMs need
to solve complex optimization problems optimally and efficiently to achieve
this high performance. One such problem is the multi-chip partitioning problem
where compilers determine the optimal partitioning and placement of operations
in tensor computation graphs on chiplets in MCMs. Partitioning ML graphs for
MCMs is particularly hard as the search space grows exponentially with the
number of chiplets available and the number of nodes in the neural network.
Furthermore, the constraints imposed by the underlying hardware produce a
search space where valid solutions are extremely sparse. In this paper, we
present a strategy using a deep reinforcement learning (RL) framework to emit a
possibly invalid candidate partition that is then corrected by a constraint
solver. Using the constraint solver ensures that RL encounters valid solutions
in the sparse space frequently enough to converge with fewer samples as
compared to non-learned strategies. The architectural choices we make for the
policy network allow us to generalize across different ML graphs. Our
evaluation of a production-scale model, BERT, on real hardware reveals that the
partitioning generated using RL policy achieves 6.11% and 5.85% higher
throughput than random search and simulated annealing. In addition, fine-tuning
the pre-trained RL policy reduces the search time from 3 hours to only 9
minutes, while achieving the same throughput as training RL policy from
scratch.
- Abstract(参考訳): マルチチップモジュール(MCM)は、機械学習(ML)アクセラレータの設計と製造コストを削減し、モノリシックな大型チップと同等の性能とエネルギー効率を提供する。
しかし、MCMをターゲットとするMLコンパイラは、この高い性能を達成するために、複雑な最適化問題を最適かつ効率的に解決する必要がある。
そのような問題の1つは、MCMにおけるチップレット上のテンソル計算グラフにおける演算の最適パーティショニングと配置を決定するマルチチップパーティショニング問題である。
MCMのためのMLグラフの分割は、探索空間が利用可能なチップレットの数とニューラルネットワーク内のノード数とともに指数関数的に増加するため、特に難しい。
さらに、基盤となるハードウェアが課す制約は、有効な解決策が極めて少ない検索空間を生み出す。
本稿では,制約ソルバによって修正される可能性のある候補分割を生成するための,深層強化学習(rl)フレームワークを用いた戦略を提案する。
制約解法を用いることで、RLはスパース空間の有効な解に遭遇し、非学習戦略と比較して少ないサンプルに収束する。
ポリシーネットワークのアーキテクチャ上の選択により、さまざまなMLグラフをまたいだ一般化が可能になります。
実ハードウェア上で生産規模モデルbertを評価した結果,rlポリシーを用いた分割処理はランダム探索およびシミュレーションアニーリングよりも6.11%,5.85%高いスループットを達成した。
さらに、事前訓練されたRLポリシーを微調整することで、検索時間を3時間から9分に短縮し、RLポリシーをスクラッチからトレーニングするのと同じスループットを実現する。
関連論文リスト
- Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。
LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。
訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文 参考訳(メタデータ) (2024-10-01T16:10:21Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Deep Model Predictive Optimization [21.22047409735362]
ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
論文 参考訳(メタデータ) (2023-10-06T21:11:52Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML [4.2019872499238256]
マルチオブジェクトベイズ最適化(MOBOpt)に基づくマイクロコントローラ(TinyML)にディープニューラルネットワークをデプロイするための新しい戦略を提案する。
本手法は,DNNの予測精度,メモリ消費量,計算複雑性のトレードオフを効率的に検出することを目的としている。
論文 参考訳(メタデータ) (2023-05-23T14:31:52Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。