論文の概要: Memory Safe Computations with XLA Compiler
- arxiv url: http://arxiv.org/abs/2206.14148v1
- Date: Tue, 28 Jun 2022 16:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 13:04:36.100851
- Title: Memory Safe Computations with XLA Compiler
- Title(参考訳): XLAコンパイラによるメモリセーフな計算
- Authors: Artem Artemev, Tilman Roeder, Mark van der Wilk
- Abstract要約: XLAコンパイラ拡張は、ユーザーが指定したメモリ制限に従ってアルゴリズムの表現を調整する。
我々は,k-アネレスト近傍およびスパースガウス過程回帰法が単一デバイス上ではるかに大きなスケールで実行可能であることを示す。
- 参考スコア(独自算出の注目度): 14.510796427699459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software packages like TensorFlow and PyTorch are designed to support linear
algebra operations, and their speed and usability determine their success.
However, by prioritising speed, they often neglect memory requirements. As a
consequence, the implementations of memory-intensive algorithms that are
convenient in terms of software design can often not be run for large problems
due to memory overflows. Memory-efficient solutions require complex programming
approaches with significant logic outside the computational framework. This
impairs the adoption and use of such algorithms. To address this, we developed
an XLA compiler extension that adjusts the computational data-flow
representation of an algorithm according to a user-specified memory limit. We
show that k-nearest neighbour and sparse Gaussian process regression methods
can be run at a much larger scale on a single device, where standard
implementations would have failed. Our approach leads to better use of hardware
resources. We believe that further focus on removing memory constraints at a
compiler level will widen the range of machine learning methods that can be
developed in the future.
- Abstract(参考訳): TensorFlowやPyTorchのようなソフトウェアパッケージは線形代数演算をサポートするように設計されている。
しかし、速度を優先することで、しばしばメモリ要件を無視する。
結果として、ソフトウェア設計において便利なメモリ集約アルゴリズムの実装は、メモリオーバーフローのために大きな問題に対して実行されないことが多い。
メモリ効率のソリューションは、計算フレームワークの外で重要な論理を持つ複雑なプログラミングアプローチを必要とする。
これはそのようなアルゴリズムの採用と利用を妨げる。
そこで我々は,ユーザ指定メモリ制限に応じて,アルゴリズムの計算データフロー表現を調整するXLAコンパイラ拡張を開発した。
標準的な実装が失敗する単一デバイス上で,k-nearest 近傍およびスパースガウスプロセス回帰手法がはるかに大規模に実行可能であることを示す。
我々のアプローチは、ハードウェアリソースのより良い利用につながる。
コンパイラレベルでのメモリ制約の除去にさらに重点を置くことで、将来開発可能な機械学習メソッドの範囲が拡大すると考えています。
関連論文リスト
- SAGA: Synthesis Augmentation with Genetic Algorithms for In-Memory Sequence Optimization [0.0]
MAGIC(Memristor Aided Logic)は、メモリへの書き込み操作を通じて物理的に計算を行うメモリ回路を使用するアプローチである。
本稿では,これらの遺伝的アルゴリズムの生成と実装について詳述し,多数のオープン回路実装について評価する。
評価された10のベンチマーク回路のうち、これらの変更により、インメモリ回路評価の効率は、ベストケースで128%、平均で27.5%向上した。
論文 参考訳(メタデータ) (2024-06-14T03:00:42Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Fast, Scalable, Warm-Start Semidefinite Programming with Spectral
Bundling and Sketching [53.91395791840179]
我々は、大規模なSDPを解くための、証明可能な正確で高速でスケーラブルなアルゴリズムであるUnified Spectral Bundling with Sketching (USBS)を提案する。
USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2023-12-19T02:27:22Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - Optimizing Memory Mapping Using Deep Reinforcement Learning [29.48627805378257]
本稿では,機械学習プログラムのコンパイル中に発生するメモリマッピング問題に焦点をあてる。
本稿では,強化学習を用いたメモリマッピング問題の解法を提案する。
また、Reinforcement Learning AgentであるmalocMuZeroを導入し、このゲームで新しい改良されたメモリマッピングソリューションを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-05-11T11:55:16Z) - Memory-Efficient Differentiable Programming for Quantum Optimal Control
of Discrete Lattices [1.5012666537539614]
量子最適制御問題は通常、GRAPEのような勾配に基づくアルゴリズムによって解決される。
QOCは、メモリ要件が大きなモデルや長時間のスパンをシミュレートする障壁であることを明らかにした。
我々は、適切な再計算コストでメモリ要求を大幅に削減する、非標準微分可能プログラミングアプローチを採用している。
論文 参考訳(メタデータ) (2022-10-15T20:59:23Z) - Reducing Memory Requirements of Quantum Optimal Control [0.0]
GRAPEのような勾配に基づくアルゴリズムは、ストレージの指数的な増加、量子ビットの増加、メモリ要求の線形増加、時間ステップの増加に悩まされる。
我々は、ユニタリ行列の逆が共役変換であるという事実を利用して、GRAPEが必要とする勾配を計算できる非標準自動微分法を開発した。
提案手法は, GRAPEのメモリ要求を大幅に低減し, 妥当な再計算を犠牲にしている。
論文 参考訳(メタデータ) (2022-03-23T20:42:54Z) - Photonic co-processors in HPC: using LightOn OPUs for Randomized
Numerical Linear Algebra [53.13961454500934]
従来のハードウェアでは,次元削減のためのランダム化ステップ自体が計算ボトルネックとなる可能性がある。
ランダム化は,様々な重要なrandnlaアルゴリズムにおいて,精度損失が無視できないほど大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2021-04-29T15:48:52Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。