論文の概要: Programmable FPGA-based Memory Controller
- arxiv url: http://arxiv.org/abs/2108.09601v1
- Date: Sat, 21 Aug 2021 23:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:28:28.873080
- Title: Programmable FPGA-based Memory Controller
- Title(参考訳): プログラマブルfpgaベースのメモリコントローラ
- Authors: Sasindu Wijeratne, Sanket Pattnaik, Zhiyu Chen, Rajgopal Kannan,
Viktor Prasanna
- Abstract要約: 本稿では,利用可能なハードウェアリソース上の異なるターゲットアプリケーションに対して,モジュール型でプログラム可能なメモリコントローラを提案する。
提案したメモリコントローラは、キャッシュラインアクセスとバルクメモリ転送を効率的にサポートする。
商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
- 参考スコア(独自算出の注目度): 9.013666207570749
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Even with generational improvements in DRAM technology, memory access latency
still remains the major bottleneck for application accelerators, primarily due
to limitations in memory interface IPs which cannot fully account for
variations in target applications, the algorithms used, and accelerator
architectures. Since developing memory controllers for different applications
is time-consuming, this paper introduces a modular and programmable memory
controller that can be configured for different target applications on
available hardware resources. The proposed memory controller efficiently
supports cache-line accesses along with bulk memory transfers. The user can
configure the controller depending on the available logic resources on the
FPGA, memory access pattern, and external memory specifications. The modular
design supports various memory access optimization techniques including,
request scheduling, internal caching, and direct memory access. These
techniques contribute to reducing the overall latency while maintaining high
sustained bandwidth. We implement the system on a state-of-the-art FPGA and
evaluate its performance using two widely studied domains: graph analytics and
deep learning workloads. We show improved overall memory access time up to 58%
on CNN and GCN workloads compared with commercial memory controller IPs.
- Abstract(参考訳): DRAM技術の世代別改良にもかかわらず、メモリアクセスレイテンシは依然としてアプリケーションアクセラレーターの主要なボトルネックであり、主にターゲットアプリケーション、使用するアルゴリズム、アクセラレーターアーキテクチャのバリエーションを十分に考慮できないメモリインターフェースIPの制限のためである。
本稿では,異なるアプリケーション用のメモリコントローラの開発に時間を要するため,利用可能なハードウェアリソース上で,異なるターゲットアプリケーション用に設定可能なモジュール型でプログラム可能なメモリコントローラを提案する。
提案するメモリコントローラはバルクメモリ転送とともにキャッシュラインアクセスを効率的にサポートする。
ユーザーはFPGA上の利用可能なロジックリソース、メモリアクセスパターン、および外部メモリ仕様に応じてコントローラを設定することができる。
モジュール設計は、要求スケジューリング、内部キャッシュ、直接メモリアクセスを含む様々なメモリアクセス最適化技術をサポートする。
これらの技術は、高い持続帯域幅を維持しながら、全体のレイテンシを低減することに寄与する。
本研究では,最先端FPGA上に実装し,グラフ解析とディープラーニング処理という2つの広く研究されている領域を用いて性能評価を行う。
商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
関連論文リスト
- MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Reconfigurable Low-latency Memory System for Sparse Matricized Tensor
Times Khatri-Rao Product on FPGA [3.4870723728779565]
Sparse Matricized Times Khatri-Rao Product (MTTKRP) はテンソル計算において最も高価なカーネルの一つである。
本稿では,MTTKRPのデータ構造の空間的および時間的局所性を探索する多面記憶システムについて述べる。
本システムでは,キャッシュオンリーとDMAオンリーのメモリシステムと比較して,2倍,1.26倍の高速化を実現している。
論文 参考訳(メタデータ) (2021-09-18T08:19:29Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z) - On the Impact of Partial Sums on Interconnect Bandwidth and Memory
Accesses in a DNN Accelerator [5.429955391775968]
専用アクセラレータは、ディープニューラルネットワーク(DNN)アプリケーションの巨大なリソース要件に対処するために設計されています。
本稿では,帯域幅の最適化のために特徴マップを分割する一次解析手法を提案する。
最適パーティショニングとアクティブメモリコントローラは最大40%の帯域幅削減を実現することができる。
論文 参考訳(メタデータ) (2020-11-02T09:44:50Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。