論文の概要: Coop: Memory is not a Commodity
- arxiv url: http://arxiv.org/abs/2311.00591v1
- Date: Wed, 1 Nov 2023 15:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 13:04:38.634195
- Title: Coop: Memory is not a Commodity
- Title(参考訳): Coop: メモリはコモディティではない
- Authors: Jianhao Zhang, Shihan Ma, Peihong Liu, Jinhui Yuan
- Abstract要約: テンソル再物質化は、限られたメモリ予算の下でディープニューラルネットワーク(DNN)のトレーニングを可能にする。
我々は,スライディングウィンドウ内のテンソルを除去し,すべてのエビジョンが連続的であり,即座に使用されることを保証する。
また, 低コストなテンソル分割と再計算可能なインプレースを提案し, 再材質化コストの低減を図る。
- 参考スコア(独自算出の注目度): 0.9667631210393929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor rematerialization allows the training of deep neural networks (DNNs)
under limited memory budgets by checkpointing the models and recomputing the
evicted tensors as needed. However, the existing tensor rematerialization
techniques overlook the memory system in deep learning frameworks and
implicitly assume that free memory blocks at different addresses are identical.
Under this flawed assumption, discontiguous tensors are evicted, among which
some are not used to allocate the new tensor. This leads to severe memory
fragmentation and increases the cost of potential rematerializations. To
address this issue, we propose to evict tensors within a sliding window to
ensure all evictions are contiguous and are immediately used. Furthermore, we
proposed cheap tensor partitioning and recomputable in-place to further reduce
the rematerialization cost by optimizing the tensor allocation. We named our
method Coop as it is a co-optimization of tensor allocation and tensor
rematerialization. We evaluated Coop on eight representative DNNs. The
experimental results demonstrate that Coop achieves up to $2\times$ memory
saving and hugely reduces compute overhead, search latency, and memory
fragmentation compared to the state-of-the-art baselines.
- Abstract(参考訳): テンソル再物質化により、モデルをチェックポイントし、必要に応じて削除されたテンソルを再計算することで、限られたメモリ予算の下でディープニューラルネットワーク(DNN)のトレーニングが可能になる。
しかし、既存のテンソル再構成技術は、ディープラーニングフレームワークのメモリシステムを見落とし、異なるアドレスにおける自由メモリブロックが同一であると暗黙的に仮定する。
この欠陥のある仮定の下では、不連続なテンソルは取り除かれ、その中には新しいテンソルを割り当てるのに使われないものもある。
これにより、メモリの断片化が深刻になり、潜在的再物質化のコストが増大する。
この問題に対処するために,スライディングウィンドウ内のテンソルをエビクトし,すべてのエビテーションが連続し,即座に使用されるようにする。
さらに, テンソル配置を最適化することにより, より安価なテンソル分割と再計算可能なインプレースを提案する。
本手法をテンソル割当とテンソル再構成の共最適化としてcoopと命名した。
我々は8つの代表的DNNでクープを評価した。
実験の結果、Coopは最大2ドル以上のメモリ節約を実現し、最先端のベースラインと比較して計算オーバーヘッド、検索レイテンシ、メモリフラグメンテーションを大幅に削減した。
関連論文リスト
- Inverted Activations: Reducing Memory Footprint in Neural Network Training [5.070981175240306]
ニューラルネットワークトレーニングにおける重要な課題は、アクティベーションテンソルに関連するメモリフットプリントである。
本稿では, 点方向非線形層におけるアクティベーションテンソルの取扱いの修正を提案する。
本手法は,トレーニング精度や計算性能に影響を与えることなく,メモリ使用量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-07-22T11:11:17Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - DELTA: Dynamically Optimizing GPU Memory beyond Tensor Recomputation [29.804356645683463]
テンソルスワップとテンソル再計算のための新しいスケジューラDELTAを提案する。
DELTAはGPUメモリの40%-70%を節約できるだけでなく、最先端の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-03-30T01:40:25Z) - DropIT: Dropping Intermediate Tensors for Memory-Efficient DNN Training [29.02792751614279]
ディープニューラルネットワークをトレーニングする際の標準的なハードウェアボトルネックは、GPUメモリである。
勾配計算のための中間テンソルの部分の選択とキャッシングにより,このフットプリントを削減する新しい手法を提案する。
実験の結果、中間テンソルの最大90%を畳み込み層と完全接続層に落とし、トレーニング中に20%のGPUメモリを節約できることがわかった。
論文 参考訳(メタデータ) (2022-02-28T14:12:00Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Efficient Tensor Completion via Element-wise Weighted Low-rank Tensor
Train with Overlapping Ket Augmentation [18.438177637687357]
本稿では,要素重み付け手法による新しいテンソル完備化手法を提案する。
具体的には,隣接ブロックからのエッジ要素の回復品質について検討する。
実験結果から,提案アルゴリズムのTWMac-TTは,他の競合するテンソル補完法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-13T06:50:37Z) - MTC: Multiresolution Tensor Completion from Partial and Coarse
Observations [49.931849672492305]
既存の完備化の定式化は、主に1つのテンソルからの部分的な観測に依存する。
この問題を解決するために,効率的なマルチレゾリューション・コンプリート・モデル(MTC)を提案する。
論文 参考訳(メタデータ) (2021-06-14T02:20:03Z) - Multi-version Tensor Completion for Time-delayed Spatio-temporal Data [50.762087239885936]
実世界の時間データは、様々なデータ読み込み遅延のために不完全または不正確な場合が多い。
経時的に更新を予測するための低ランクテンソルモデルを提案する。
最良基準法に比べて最大27.2%低いルート平均二乗誤差が得られる。
論文 参考訳(メタデータ) (2021-05-11T19:55:56Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Efficient Tensor Kernel methods for sparse regression [39.95662930240854]
そこで本研究では,下層の回帰問題の解における空間性を促進するために,適切なテンソルカーネルを導入する。
テンソルを格納するにはかなりの量のメモリが必要で、最終的には適用性を制限する。
まず、データを格納するための新しいより効率的なレイアウトを導入することにより、メモリ要求を直接削減する。
第二に、Nystrom型サブサンプリングアプローチを用いて、少ないデータポイントでトレーニングフェーズを実現できるので、計算コストを削減できる。
論文 参考訳(メタデータ) (2020-03-23T18:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。