論文の概要: Smart-Infinity: Fast Large Language Model Training using Near-Storage
Processing on a Real System
- arxiv url: http://arxiv.org/abs/2403.06664v1
- Date: Mon, 11 Mar 2024 12:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:13:56.006562
- Title: Smart-Infinity: Fast Large Language Model Training using Near-Storage
Processing on a Real System
- Title(参考訳): スマートインフィニティ:実システムにおけるニアストレージ処理を用いた高速大規模言語モデルトレーニング
- Authors: Hongsun Jang, Jaeyong Song, Jaewon Jung, Jaeyoung Park, Youngsok Kim,
and Jinho Lee
- Abstract要約: Smart-Infinityは、実際のシステム上でPyTorchに完全に統合された、使いやすいアプローチである。
本稿では,スマートインフィニティのスケーラビリティを高めるために,加速器による勾配圧縮/圧縮を提案する。
注目すべきなのは、Smart-Infinityは、実際のシステム上でPyTorchに完全に統合された、使いやすいアプローチであることだ。
- 参考スコア(独自算出の注目度): 7.625494517786591
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recent huge advance of Large Language Models (LLMs) is mainly driven by
the increase in the number of parameters. This has led to substantial memory
capacity requirements, necessitating the use of dozens of GPUs just to meet the
capacity. One popular solution to this is storage-offloaded training, which
uses host memory and storage as an extended memory hierarchy. However, this
obviously comes at the cost of storage bandwidth bottleneck because storage
devices have orders of magnitude lower bandwidth compared to that of GPU device
memories. Our work, Smart-Infinity, addresses the storage bandwidth bottleneck
of storage-offloaded LLM training using near-storage processing devices on a
real system. The main component of Smart-Infinity is SmartUpdate, which
performs parameter updates on custom near-storage accelerators. We identify
that moving parameter updates to the storage side removes most of the storage
traffic. In addition, we propose an efficient data transfer handler structure
to address the system integration issues for Smart-Infinity. The handler allows
overlapping data transfers with fixed memory consumption by reusing the device
buffer. Lastly, we propose accelerator-assisted gradient
compression/decompression to enhance the scalability of Smart-Infinity. When
scaling to multiple near-storage processing devices, the write traffic on the
shared channel becomes the bottleneck. To alleviate this, we compress the
gradients on the GPU and decompress them on the accelerators. It provides
further acceleration from reduced traffic. As a result, Smart-Infinity achieves
a significant speedup compared to the baseline. Notably, Smart-Infinity is a
ready-to-use approach that is fully integrated into PyTorch on a real system.
We will open-source Smart-Infinity to facilitate its use.
- Abstract(参考訳): 最近のLarge Language Models (LLM) の大きな進歩は、主にパラメータの数の増加によって引き起こされている。
これによりメモリ容量が大幅に要求され、容量を満たすために数十のgpuを使用する必要が生じた。
これに対する一般的な解決策のひとつは、拡張メモリ階層としてホストメモリとストレージを使用するstorage-offloaded trainingである。
しかし、ストレージデバイスはGPUデバイスのメモリに比べて帯域幅が桁違いに低いため、ストレージ帯域幅のボトルネックとなることは明らかだ。
筆者らのsmart-infinityは,実システムにおけるストレージオフロードllmトレーニングのストレージ帯域幅ボトルネックに対処する。
Smart-Infinityの主なコンポーネントはSmartUpdateで、カスタムのニアストレージアクセラレータのパラメータ更新を実行する。
ストレージ側へのパラメータの移動は、ほとんどのストレージトラフィックを削除します。
さらに,スマートインフィニティのためのシステム統合問題に対処する効率的なデータ転送ハンドラ構造を提案する。
ハンドラはデバイスバッファを再利用することで、固定メモリ消費で重なり合うデータ転送を可能にする。
最後に,スマートインフィニティのスケーラビリティを高めるために,加速器による勾配圧縮・減圧縮を提案する。
複数のニアストレージ処理デバイスにスケーリングする場合、共有チャネル上の書き込みトラフィックがボトルネックとなる。
これを軽減するため、GPU上の勾配を圧縮し、アクセル上で圧縮する。
交通量を減らすことでさらに加速する。
その結果、Smart-Infinityはベースラインに比べて大幅に高速化された。
注目すべきなのは、Smart-Infinityは、実際のシステム上でPyTorchに完全に統合された、使いやすいアプローチであることだ。
当社はSmart-Infinityをオープンソースとして公開します。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference [47.043257902725294]
本研究では, 圧縮率が高く, 減圧オーバーヘッドの少ない非ゼロ値に対して, 刈り取られたLLM重みの非構造スパースパターンを圧縮する新しいスパース形式を提案する。
一般的なHugingface Accelerateを使ったオフロード推論と比較して、EndorはOPT-66Bを1.70倍、Llama2-70Bを1.78倍加速する。
論文 参考訳(メタデータ) (2024-06-17T15:55:08Z) - AiSAQ: All-in-Storage ANNS with Product Quantization for DRAM-free Information Retrieval [1.099532646524593]
DiskANNは、RAMとストレージの両方を使用して、大規模データセットのリコール速度バランスを良好に実現している。
製品量子化(PQ)による圧縮ベクターのロードによるメモリ使用量の削減を主張する一方で、そのメモリ使用量はデータセットの規模に比例して増加する。
本稿では、圧縮されたベクトルをストレージにオフロードするAiSAQ(All-in-Storage ANNS with Product Quantization)を提案する。
論文 参考訳(メタデータ) (2024-04-09T04:20:27Z) - SMOF: Streaming Modern CNNs on FPGAs with Smart Off-Chip Eviction [6.800641017055453]
本稿では,計算パイプラインに沿ったオフチップメモリに重み付けとアクティベーション消去機構を導入する。
提案機構は既存のツールフローに組み込まれ,オフチップメモリをバッファとして利用することで設計空間を拡大する。
SMOFは、競争力があり、場合によっては、コンピュータビジョンタスクの範囲で最先端のパフォーマンスを提供する能力を示した。
論文 参考訳(メタデータ) (2024-03-27T18:12:24Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Programmable FPGA-based Memory Controller [9.013666207570749]
本稿では,利用可能なハードウェアリソース上の異なるターゲットアプリケーションに対して,モジュール型でプログラム可能なメモリコントローラを提案する。
提案したメモリコントローラは、キャッシュラインアクセスとバルクメモリ転送を効率的にサポートする。
商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
論文 参考訳(メタデータ) (2021-08-21T23:53:12Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z) - Improving Memory Utilization in Convolutional Neural Network
Accelerators [16.340620299847384]
本稿では,アクティベーション層を重複させ,メモリをより効率的に利用するためのマッピング手法を提案する。
様々な実世界のオブジェクト検出器ネットワークによる実験により、提案されたマッピング技術により、メモリのアクティベーションを最大32.9%削減できることが示された。
より高解像度のノイズ除去ネットワークでは、活性化メモリの48.8%の節約を実現している。
論文 参考訳(メタデータ) (2020-07-20T09:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。