Fugu-MT 論文翻訳(概要): G10: Enabling An Efficient Unified GPU Memory and Storage Architecture with Smart Tensor Migrations

論文の概要: G10: Enabling An Efficient Unified GPU Memory and Storage Architecture with Smart Tensor Migrations

arxiv url: http://arxiv.org/abs/2310.09443v1
Date: Fri, 13 Oct 2023 23:32:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 02:06:33.968613
Title: G10: Enabling An Efficient Unified GPU Memory and Storage Architecture with Smart Tensor Migrations
Title（参考訳）: G10: スマートテンソルマイグレーションによる効率的なGPUメモリとストレージアーキテクチャの実現
Authors: Haoyang Zhang, Yirui Eric Zhou, Yuqi Xue, Yiqi Liu, and Jian Huang
Abstract要約: 統一GPUメモリとストレージアーキテクチャ、G10。 G10はホストメモリ、GPUメモリ、フラッシュメモリを統一メモリ空間に統合する。実験によると、G10は最先端のGPUメモリソリューションを最大1.75$times$で上回っている。
参考スコア（独自算出の注目度）: 5.752074124514541
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: To break the GPU memory wall for scaling deep learning workloads, a variety of architecture and system techniques have been proposed recently. Their typical approaches include memory extension with flash memory and direct storage access. However, these techniques still suffer from suboptimal performance and introduce complexity to the GPU memory management, making them hard to meet the scalability requirement of deep learning workloads today. In this paper, we present a unified GPU memory and storage architecture named G10 driven by the fact that the tensor behaviors of deep learning workloads are highly predictable. G10 integrates the host memory, GPU memory, and flash memory into a unified memory space, to scale the GPU memory capacity while enabling transparent data migrations. Based on this unified GPU memory and storage architecture, G10 utilizes compiler techniques to characterize the tensor behaviors in deep learning workloads. Therefore, it can schedule data migrations in advance by considering the available bandwidth of flash memory and host memory. The cooperative mechanism between deep learning compilers and the unified memory architecture enables G10 to hide data transfer overheads in a transparent manner. We implement G10 based on an open-source GPU simulator. Our experiments demonstrate that G10 outperforms state-of-the-art GPU memory solutions by up to 1.75$\times$, without code modifications to deep learning workloads. With the smart data migration mechanism, G10 can reach 90.3\% of the performance of the ideal case assuming unlimited GPU memory.
Abstract（参考訳）: ディープラーニングワークロードをスケールするためのGPUメモリウォールを壊すために、さまざまなアーキテクチャとシステム技術が最近提案されている。典型的なアプローチとしては、フラッシュメモリによるメモリ拡張と直接ストレージアクセスがある。しかしながら、これらのテクニックは依然として最適化されていないパフォーマンスに苦しめられ、gpuメモリ管理に複雑さをもたらし、今日のディープラーニングワークロードのスケーラビリティ要件を満たすことが困難になっている。本稿では,ディープラーニングワークロードのテンソル挙動が極めて予測可能であることから,g10と呼ばれる統一gpuメモリとストレージアーキテクチャを提案する。 G10はホストメモリ、GPUメモリ、フラッシュメモリを統一メモリ空間に統合し、透過的なデータマイグレーションを可能にしながらGPUメモリ容量を拡大する。この統合GPUメモリとストレージアーキテクチャに基づいて、G10はコンパイラ技術を使用して、ディープラーニングワークロードのテンソル動作を特徴づける。そのため、フラッシュメモリとホストメモリの帯域幅を考慮し、データマイグレーションを事前にスケジュールすることができる。ディープラーニングコンパイラと統一メモリアーキテクチャの協調メカニズムにより、G10はデータ転送オーバーヘッドを透過的に隠蔽することができる。オープンソースGPUシミュレータに基づくG10を実装した。我々の実験によると、G10は、ディープラーニングのワークロードにコード修正を加えることなく、最先端のGPUメモリソリューションを最大1.75$\times$で上回っている。スマートデータマイグレーションメカニズムにより、G10は無制限のGPUメモリを想定した理想的なケースのパフォーマンスの90.3\%に達することができる。

関連論文リスト

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文参考訳（メタデータ） (2024-12-02T06:57:46Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:58Z)
GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models [32.23853007467266]
GEARは、大きなシーケンスモデル(トランスなど)でスケーラブルな強化学習(RL)を実現するように設計されている。ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備える。 Gearは、最先端の大規模RLモデルをトレーニングする際に、Reverbよりも最大6倍パフォーマンスレベルを達成することができる。
論文参考訳（メタデータ） (2023-10-08T15:39:43Z)
XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。 XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文参考訳（メタデータ） (2022-07-14T17:59:37Z)
Hierarchical Memory Matching Network for Video Object Segmentation [38.24999776705497]
本稿では,時間的スムーズさを活用しながら,複数スケールのメモリ実行を可能にする2つの高度なメモリ読み取りモジュールを提案する。まず,非局所的な高密度メモリ読み出しを代替するガイド付きメモリマッチングモジュールを提案する。階層型メモリマッチング方式を導入し、大小のメモリを粗大のメモリで読み取るトップkガイド型メモリマッチングモジュールを提案する。
論文参考訳（メタデータ） (2021-09-23T14:36:43Z)
TENSILE: A Tensor granularity dynamic GPU memory scheduler method towards multiple dynamic workloads system [9.86589655261934]
TENSILEは、GPUメモリピークを減らすために、テンソル粒度でGPUメモリを管理する方法である。我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。
論文参考訳（メタデータ） (2021-05-27T17:46:16Z)
Large Graph Convolutional Network Training with GPU-Oriented Data Communication Architecture [19.2129567657739]
グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、スパース機能の収集にCPUに依存している。しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。本稿では,GPUスレッドがホストメモリのスパース機能に直接アクセスするGCNトレーニングのための新しいGPU指向データ通信手法を提案する。
論文参考訳（メタデータ） (2021-03-04T21:00:17Z)
Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文参考訳（メタデータ） (2020-07-14T13:19:19Z)
DMV: Visual Object Tracking via Part-level Dense Memory and Voting-based Retrieval [61.366644088881735]
DMVと呼ばれる部分レベル高密度メモリと投票ベースの検索による新しいメモリベースのトラッカーを提案する。また,メモリの信頼できない情報をフィルタリングする新たな投票機構を提案する。
論文参考訳（メタデータ） (2020-03-20T10:05:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。