Fugu-MT 論文翻訳(概要): XEngine: Optimal Tensor Rematerialization for Neural Networks in Heterogeneous Environments

論文の概要: XEngine: Optimal Tensor Rematerialization for Neural Networks in Heterogeneous Environments

arxiv url: http://arxiv.org/abs/2212.09290v1
Date: Mon, 19 Dec 2022 08:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 18:17:44.349434
Title: XEngine: Optimal Tensor Rematerialization for Neural Networks in Heterogeneous Environments
Title（参考訳）: XEngine: 異種環境におけるニューラルネットワークのための最適テンソルリマテリアル化
Authors: Manuela Schuler, Richard Membarth, Philipp Slusallek
Abstract要約: 我々は、低メモリ環境において、ネットワークオペレーターを異種デバイスにスケジュールするアプローチであるXEngineを提案する。我々の解法は、ネットワークが単一のデバイスでのみ計算される最速のCheckmateスケジュールよりも最大22.5 %高速な解を求める。
参考スコア（独自算出の注目度）: 3.769144330511514
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Memory efficiency is crucial in training deep learning networks on resource-restricted devices. During backpropagation, forward tensors are used to calculate gradients. Despite the option of keeping those dependencies in memory until they are reused in backpropagation, some forward tensors can be discarded and recomputed later from saved tensors, so-called checkpoints. This allows, in particular, for resource-constrained heterogeneous environments to make use of all available compute devices. Unfortunately, the definition of these checkpoints is a non-trivial problem and poses a challenge to the programmer - improper or excessive recomputations negate the benefit of checkpointing. In this article, we present XEngine, an approach that schedules network operators to heterogeneous devices in low memory environments by determining checkpoints and recomputations of tensors. Our approach selects suitable resources per timestep and operator and optimizes the end-to-end time for neural networks taking the memory limitation of each device into account. For this, we formulate a mixed-integer quadratic program (MIQP) to schedule operators of deep learning networks on heterogeneous systems. We compare our MIQP solver XEngine against Checkmate, a mixed-integer linear programming (MILP) approach that solves recomputation on a single device. Our solver finds solutions that are up to 22.5 % faster than the fastest Checkmate schedule in which the network is computed exclusively on a single device. We also find valid schedules for networks making use of both central processing units and graphics processing units if memory limitations do not allow scheduling exclusively to the graphics processing unit.
Abstract（参考訳）: メモリ効率は、リソース制限されたデバイス上でのディープラーニングネットワークのトレーニングに不可欠である。バックプロパゲーションの間、前方テンソルは勾配を計算するために用いられる。これらの依存関係をバックプロパゲーションで再利用するまでメモリに保持するオプションがあるが、いくつかの前方テンソルは後に保存されたテンソル、いわゆるチェックポイントから破棄して再計算することができる。これにより、リソースに制約のある異種環境において、利用可能なすべての計算デバイスを利用できる。残念なことに、これらのチェックポイントの定義は非自明な問題であり、プログラマにとって課題となる。本稿では,テンソルのチェックポイントと再計算によって,ネットワーク演算子を低メモリ環境における異種デバイスにスケジュールするXEngineを提案する。提案手法は時間ステップと演算子毎に適切なリソースを選択し,各デバイスのメモリ制限を考慮したニューラルネットワークのエンドツーエンド時間を最適化する。そこで我々は、混合整数二次プログラム(MIQP)を定式化し、ヘテロジニアスシステム上でディープラーニングネットワークの演算子をスケジューリングする。当社のmiqpソルバxengineと,単一デバイスで再計算を行うmilp(mixed-integer linear programming)アプローチであるcheckmateを比較した。我々の解法は、ネットワークが単一のデバイスでのみ計算される最速のCheckmateスケジュールよりも最大2.5%高速なソリューションを見つける。また,メモリ制限がグラフィックス処理ユニットのみのスケジューリングを許さない場合,中央処理ユニットとグラフィック処理ユニットの両方を利用するネットワークの有効なスケジュールも見出す。

関連論文リスト

GPU Memory Usage Optimization for Backward Propagation in Deep Network Training [4.444935537351665]
本稿では,モデルトレーニング中の最小ピークメモリ使用量を達成するために,最適チェックポイントサブセットの探索に着目する。まず,数式を用いたニューラルネットワークの学習の理論的背景について述べる。我々はこれらの方程式を用いて、モデルの重みの勾配を計算するために、前と後の両方の段階で必要となるすべての必須データを識別する。
論文参考訳（メタデータ） (2025-02-18T03:26:39Z)
Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文参考訳（メタデータ） (2024-12-16T14:23:31Z)
OLLA: Decreasing the Memory Usage of Neural Networks by Optimizing the Lifetime and Location of Arrays [6.418232942455968]
OLLAは、ニューラルネットワークのトレーニングに使用されるテンソルの寿命とメモリ位置を最適化するアルゴリズムである。問題のエンコーディングを単純化し、最先端のニューラルネットワークのサイズにスケールするためのアプローチを可能にするために、いくつかの手法を提案する。
論文参考訳（メタデータ） (2022-10-24T02:39:13Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文参考訳（メタデータ） (2022-06-15T17:58:34Z)
A Communication-Efficient Distributed Gradient Clipping Algorithm for Training Deep Neural Networks [11.461878019780597]
グラディエントDescentは、ディープニューラルネットワークにおいてゆっくりと収束する。勾配クリッピング方式が並列スピードアップを楽しむために複数のマシンを活用できるかどうかは謎のままである。
論文参考訳（メタデータ） (2022-05-10T16:55:33Z)
Fixed-Point Code Synthesis For Neural Networks [0.0]
固定点算術を用いて、すでに訓練済みのニューラルネットワークのフォーマット(精度)を調整するための新しい手法が導入された。新たな最適化されたニューラルネットワークは、ユーザによって固定されたしきい値まで精度を変更することなく、その出力を固定点数で計算する。
論文参考訳（メタデータ） (2022-02-04T12:02:54Z)
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文参考訳（メタデータ） (2022-01-16T07:22:47Z)
Collaborative Learning over Wireless Networks: An Introductory Overview [84.09366153693361]
主に、ワイヤレスデバイス間の協調トレーニングに焦点を合わせます。過去数十年間、多くの分散最適化アルゴリズムが開発されてきた。データ局所性 – すなわち、各参加デバイスで利用可能なデータがローカルのままである間、共同モデルを協調的にトレーニングすることができる。
論文参考訳（メタデータ） (2021-12-07T20:15:39Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
Reservoir Stack Machines [77.12475691708838]
メモリ拡張ニューラルネットワークは、情報ストレージを必要とするタスクをサポートするために、明示的なメモリを備えたリカレントニューラルネットワークを備える。本研究では,全ての決定論的文脈自由言語を確実に認識できるモデルである貯水池スタックマシンを導入する。以上の結果から, 貯水池スタックマシンは, 訓練データよりも長い試験シーケンスでもゼロ誤差を達成できることがわかった。
論文参考訳（メタデータ） (2021-05-04T16:50:40Z)
ItNet: iterative neural networks with small graphs for accurate and efficient anytime prediction [1.52292571922932]
本研究では,計算グラフの観点から,メモリフットプリントが小さいネットワークモデルについて紹介する。 CamVidおよびCityscapesデータセットでセマンティックセグメンテーションの最新の結果を示します。
論文参考訳（メタデータ） (2021-01-21T15:56:29Z)
TASO: Time and Space Optimization for Memory-Constrained DNN Inference [5.023660118588569]
畳み込みニューラルネットワーク(CNN)は、産業用ロボティクスや自動化システムからモバイルデバイスでの生体認証まで、多くの組み込みアプリケーションで使用されている。本稿では、畳み込み層を実装するプリミティブ演算を選択するための整数線形計画法(ILP)に基づくCNNモデルの事前ドメイン固有最適化手法を提案する。
論文参考訳（メタデータ） (2020-05-21T15:08:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。