論文の概要: Optimizing Memory Mapping Using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.07440v2
- Date: Tue, 17 Oct 2023 09:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 22:02:27.642782
- Title: Optimizing Memory Mapping Using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習によるメモリマッピングの最適化
- Authors: Pengming Wang, Mikita Sazanovich, Berkin Ilbeyi, Phitchaya Mangpo
Phothilimthana, Manish Purohit, Han Yang Tay, Ng\^an V\~u, Miaosen Wang,
Cosmin Paduraru, Edouard Leurent, Anton Zhernov, Po-Sen Huang, Julian
Schrittwieser, Thomas Hubert, Robert Tung, Paula Kurylowicz, Kieran Milan,
Oriol Vinyals and Daniel J. Mankowitz
- Abstract要約: 本稿では,機械学習プログラムのコンパイル中に発生するメモリマッピング問題に焦点をあてる。
本稿では,強化学習を用いたメモリマッピング問題の解法を提案する。
また、Reinforcement Learning AgentであるmalocMuZeroを導入し、このゲームで新しい改良されたメモリマッピングソリューションを見つけることができることを示す。
- 参考スコア(独自算出の注目度): 29.48627805378257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Resource scheduling and allocation is a critical component of many high
impact systems ranging from congestion control to cloud computing. Finding more
optimal solutions to these problems often has significant impact on resource
and time savings, reducing device wear-and-tear, and even potentially improving
carbon emissions. In this paper, we focus on a specific instance of a
scheduling problem, namely the memory mapping problem that occurs during
compilation of machine learning programs: That is, mapping tensors to different
memory layers to optimize execution time.
We introduce an approach for solving the memory mapping problem using
Reinforcement Learning. RL is a solution paradigm well-suited for sequential
decision making problems that are amenable to planning, and combinatorial
search spaces with high-dimensional data inputs. We formulate the problem as a
single-player game, which we call the mallocGame, such that high-reward
trajectories of the game correspond to efficient memory mappings on the target
hardware. We also introduce a Reinforcement Learning agent, mallocMuZero, and
show that it is capable of playing this game to discover new and improved
memory mapping solutions that lead to faster execution times on real ML
workloads on ML accelerators. We compare the performance of mallocMuZero to the
default solver used by the Accelerated Linear Algebra (XLA) compiler on a
benchmark of realistic ML workloads. In addition, we show that mallocMuZero is
capable of improving the execution time of the recently published AlphaTensor
matrix multiplication model.
- Abstract(参考訳): 資源のスケジューリングと割り当ては、混雑制御からクラウドコンピューティングまで、多くの高負荷システムの重要なコンポーネントである。
これらの問題に対するより最適な解決策を見つけることは、しばしば資源と時間の節約に重大な影響を与える。
本稿では,スケジューリング問題,すなわち,機械学習プログラムのコンパイル中に発生するメモリマッピング問題,すなわち,テンソルを異なるメモリ層にマッピングして実行時間を最適化する特定の事例に焦点を当てる。
本稿では,強化学習を用いたメモリマッピング問題の解法を提案する。
rlは、計画に適した逐次的意思決定問題や、高次元データ入力を持つ組合せ探索空間に適したソリューションパラダイムである。
そこで我々は,この問題をmallocGameと呼ぶ単一プレイヤーゲームとして定式化し,ゲームの高軌道がターゲットハードウェア上の効率的なメモリマッピングに対応するようにした。
また、Reinforcement LearningエージェントであるmalocMuZeroを導入し、このゲームをプレイすることで、MLアクセラレータ上での実際のMLワークロードの実行時間の短縮につながる、新しい改善されたメモリマッピングソリューションを見つけることができることを示す。
実際のMLワークロードのベンチマークで,malocMuZeroのパフォーマンスを,Accelerated Linear Algebra (XLA)コンパイラが使用しているデフォルトのソルバと比較した。
さらに、mallocmuzero は、最近発表された alphatensor matrix multiplication model の実行時間を改善することができることを示した。
関連論文リスト
- Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Robust Implementation of Retrieval-Augmented Generation on Edge-based Computing-in-Memory Architectures [26.183960625493807]
エッジデバイスにデプロイされる大規模言語モデル(LLM)は、微調整とパラメータの特定の部分の更新を通じて学習する。
Retrieval-Augmented Generation (RAG) は資源効率の高いLLM学習手法である。
本稿では,コンピューティング・イン・メモリ(CiM)アーキテクチャを用いてRAGを高速化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T22:31:50Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Improving information retention in large scale online continual learning [99.73847522194549]
オンライン連続学習は、既存の知識を維持しながら、新しいデータに効率的に適応することを目的としている。
最近の研究は、リプレイバッファが無制限であっても、大規模なOCLでは情報保持が問題であり続けていることを示唆している。
非定常目標に対する最適化を改善するため,移動平均の手法群を提案する。
論文 参考訳(メタデータ) (2022-10-12T16:59:43Z) - Memory Safe Computations with XLA Compiler [14.510796427699459]
XLAコンパイラ拡張は、ユーザーが指定したメモリ制限に従ってアルゴリズムの表現を調整する。
我々は,k-アネレスト近傍およびスパースガウス過程回帰法が単一デバイス上ではるかに大きなスケールで実行可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T16:59:28Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。
これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。
対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文 参考訳(メタデータ) (2020-10-04T19:45:55Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。