論文の概要: Programmable FPGA-based Memory Controller
- arxiv url: http://arxiv.org/abs/2108.09601v1
- Date: Sat, 21 Aug 2021 23:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:28:28.873080
- Title: Programmable FPGA-based Memory Controller
- Title(参考訳): プログラマブルfpgaベースのメモリコントローラ
- Authors: Sasindu Wijeratne, Sanket Pattnaik, Zhiyu Chen, Rajgopal Kannan,
Viktor Prasanna
- Abstract要約: 本稿では,利用可能なハードウェアリソース上の異なるターゲットアプリケーションに対して,モジュール型でプログラム可能なメモリコントローラを提案する。
提案したメモリコントローラは、キャッシュラインアクセスとバルクメモリ転送を効率的にサポートする。
商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
- 参考スコア(独自算出の注目度): 9.013666207570749
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Even with generational improvements in DRAM technology, memory access latency
still remains the major bottleneck for application accelerators, primarily due
to limitations in memory interface IPs which cannot fully account for
variations in target applications, the algorithms used, and accelerator
architectures. Since developing memory controllers for different applications
is time-consuming, this paper introduces a modular and programmable memory
controller that can be configured for different target applications on
available hardware resources. The proposed memory controller efficiently
supports cache-line accesses along with bulk memory transfers. The user can
configure the controller depending on the available logic resources on the
FPGA, memory access pattern, and external memory specifications. The modular
design supports various memory access optimization techniques including,
request scheduling, internal caching, and direct memory access. These
techniques contribute to reducing the overall latency while maintaining high
sustained bandwidth. We implement the system on a state-of-the-art FPGA and
evaluate its performance using two widely studied domains: graph analytics and
deep learning workloads. We show improved overall memory access time up to 58%
on CNN and GCN workloads compared with commercial memory controller IPs.
- Abstract(参考訳): DRAM技術の世代別改良にもかかわらず、メモリアクセスレイテンシは依然としてアプリケーションアクセラレーターの主要なボトルネックであり、主にターゲットアプリケーション、使用するアルゴリズム、アクセラレーターアーキテクチャのバリエーションを十分に考慮できないメモリインターフェースIPの制限のためである。
本稿では,異なるアプリケーション用のメモリコントローラの開発に時間を要するため,利用可能なハードウェアリソース上で,異なるターゲットアプリケーション用に設定可能なモジュール型でプログラム可能なメモリコントローラを提案する。
提案するメモリコントローラはバルクメモリ転送とともにキャッシュラインアクセスを効率的にサポートする。
ユーザーはFPGA上の利用可能なロジックリソース、メモリアクセスパターン、および外部メモリ仕様に応じてコントローラを設定することができる。
モジュール設計は、要求スケジューリング、内部キャッシュ、直接メモリアクセスを含む様々なメモリアクセス最適化技術をサポートする。
これらの技術は、高い持続帯域幅を維持しながら、全体のレイテンシを低減することに寄与する。
本研究では,最先端FPGA上に実装し,グラフ解析とディープラーニング処理という2つの広く研究されている領域を用いて性能評価を行う。
商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - A Configurable and Efficient Memory Hierarchy for Neural Network Hardware Accelerator [0.6242215470795112]
ディープニューラルネットワーク(DNN)の層ごとの適応型メモリアクセスパターンに適したメモリ階層化フレームワークを提案する。
目的は、必要なメモリ容量を最小化することと、高いアクセラレータ性能を維持することのバランスを最適化することである。
論文 参考訳(メタデータ) (2024-04-24T11:57:37Z) - SMOF: Streaming Modern CNNs on FPGAs with Smart Off-Chip Eviction [6.800641017055453]
本稿では,計算パイプラインに沿ったオフチップメモリに重み付けとアクティベーション消去機構を導入する。
提案機構は既存のツールフローに組み込まれ,オフチップメモリをバッファとして利用することで設計空間を拡大する。
SMOFは、競争力があり、場合によっては、コンピュータビジョンタスクの範囲で最先端のパフォーマンスを提供する能力を示した。
論文 参考訳(メタデータ) (2024-03-27T18:12:24Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Reconfigurable Low-latency Memory System for Sparse Matricized Tensor
Times Khatri-Rao Product on FPGA [3.4870723728779565]
Sparse Matricized Times Khatri-Rao Product (MTTKRP) はテンソル計算において最も高価なカーネルの一つである。
本稿では,MTTKRPのデータ構造の空間的および時間的局所性を探索する多面記憶システムについて述べる。
本システムでは,キャッシュオンリーとDMAオンリーのメモリシステムと比較して,2倍,1.26倍の高速化を実現している。
論文 参考訳(メタデータ) (2021-09-18T08:19:29Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。