Fugu-MT 論文翻訳(概要): Programmable FPGA-based Memory Controller

論文の概要: Programmable FPGA-based Memory Controller

arxiv url: http://arxiv.org/abs/2108.09601v1
Date: Sat, 21 Aug 2021 23:53:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-24 15:28:28.873080
Title: Programmable FPGA-based Memory Controller
Title（参考訳）: プログラマブルfpgaベースのメモリコントローラ
Authors: Sasindu Wijeratne, Sanket Pattnaik, Zhiyu Chen, Rajgopal Kannan, Viktor Prasanna
Abstract要約: 本稿では,利用可能なハードウェアリソース上の異なるターゲットアプリケーションに対して,モジュール型でプログラム可能なメモリコントローラを提案する。提案したメモリコントローラは、キャッシュラインアクセスとバルクメモリ転送を効率的にサポートする。商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
参考スコア（独自算出の注目度）: 9.013666207570749
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Even with generational improvements in DRAM technology, memory access latency still remains the major bottleneck for application accelerators, primarily due to limitations in memory interface IPs which cannot fully account for variations in target applications, the algorithms used, and accelerator architectures. Since developing memory controllers for different applications is time-consuming, this paper introduces a modular and programmable memory controller that can be configured for different target applications on available hardware resources. The proposed memory controller efficiently supports cache-line accesses along with bulk memory transfers. The user can configure the controller depending on the available logic resources on the FPGA, memory access pattern, and external memory specifications. The modular design supports various memory access optimization techniques including, request scheduling, internal caching, and direct memory access. These techniques contribute to reducing the overall latency while maintaining high sustained bandwidth. We implement the system on a state-of-the-art FPGA and evaluate its performance using two widely studied domains: graph analytics and deep learning workloads. We show improved overall memory access time up to 58% on CNN and GCN workloads compared with commercial memory controller IPs.
Abstract（参考訳）: DRAM技術の世代別改良にもかかわらず、メモリアクセスレイテンシは依然としてアプリケーションアクセラレーターの主要なボトルネックであり、主にターゲットアプリケーション、使用するアルゴリズム、アクセラレーターアーキテクチャのバリエーションを十分に考慮できないメモリインターフェースIPの制限のためである。本稿では,異なるアプリケーション用のメモリコントローラの開発に時間を要するため,利用可能なハードウェアリソース上で,異なるターゲットアプリケーション用に設定可能なモジュール型でプログラム可能なメモリコントローラを提案する。提案するメモリコントローラはバルクメモリ転送とともにキャッシュラインアクセスを効率的にサポートする。ユーザーはFPGA上の利用可能なロジックリソース、メモリアクセスパターン、および外部メモリ仕様に応じてコントローラを設定することができる。モジュール設計は、要求スケジューリング、内部キャッシュ、直接メモリアクセスを含む様々なメモリアクセス最適化技術をサポートする。これらの技術は、高い持続帯域幅を維持しながら、全体のレイテンシを低減することに寄与する。本研究では,最先端FPGA上に実装し,グラフ解析とディープラーニング処理という2つの広く研究されている領域を用いて性能評価を行う。商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。

関連論文リスト

HyperOffload: Graph-Driven Hierarchical Memory Management for Large Language Models on SuperNode Architectures [20.525243835887558]
SuperNodeは、コンパイラ内のキャッシュ演算子を使用したデータ移動を表す。私たちは、本番のディープラーニングフレームワークMindSporeにSuperNodeを実装しています。 SuperNodeは、エンドツーエンドのパフォーマンスを維持しながら、推論のピークデバイスメモリ使用量を最大26%削減することを示す。
論文参考訳（メタデータ） (2026-01-31T14:29:13Z)
Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文参考訳（メタデータ） (2026-01-05T08:24:16Z)
LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。 GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文参考訳（メタデータ） (2025-10-21T17:58:17Z)
MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。 MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文参考訳（メタデータ） (2025-07-04T17:21:46Z)
Hardware-software co-exploration with racetrack memory based in-memory computing for CNN inference in embedded systems [54.045712360156024]
レーストラックメモリは、データ密度の高い製造を可能にする不揮発性技術である。メモリセルを持つインメモリ演算回路は、メモリ密度と電力効率の両方に影響を与える。レーストラックメモリに最適化された効率的なインメモリ畳み込みニューラルネットワーク(CNN)アクセラレータを提案する。
論文参考訳（メタデータ） (2025-07-02T07:29:53Z)
COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-12T11:31:25Z)
LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文参考訳（メタデータ） (2024-11-05T05:36:17Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention [8.20523619534105]
PagedAttention は LLM サービスシステムにおける動的メモリ割り当ての一般的なアプローチである。仮想メモリにおけるKVキャッシュの整合性を保ちながら、物理メモリのフラグメンテーションを軽減するアプローチとして、vAttentionを提案する。全体として、vAttentionはPagedAttentionに代わるシンプルでポータブルでパフォーマンスの高いものだ。
論文参考訳（メタデータ） (2024-05-07T16:00:32Z)
A Configurable and Efficient Memory Hierarchy for Neural Network Hardware Accelerator [0.6242215470795112]
ディープニューラルネットワーク(DNN)の層ごとの適応型メモリアクセスパターンに適したメモリ階層化フレームワークを提案する。目的は、必要なメモリ容量を最小化することと、高いアクセラレータ性能を維持することのバランスを最適化することである。
論文参考訳（メタデータ） (2024-04-24T11:57:37Z)
SMOF: Streaming Modern CNNs on FPGAs with Smart Off-Chip Eviction [6.800641017055453]
本稿では,計算パイプラインに沿ったオフチップメモリに重み付けとアクティベーション消去機構を導入する。提案機構は既存のツールフローに組み込まれ,オフチップメモリをバッファとして利用することで設計空間を拡大する。 SMOFは、競争力があり、場合によっては、コンピュータビジョンタスクの範囲で最先端のパフォーマンスを提供する能力を示した。
論文参考訳（メタデータ） (2024-03-27T18:12:24Z)
Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:58Z)
MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。 MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文参考訳（メタデータ） (2023-10-25T18:00:26Z)
Reconfigurable Low-latency Memory System for Sparse Matricized Tensor Times Khatri-Rao Product on FPGA [3.4870723728779565]
Sparse Matricized Times Khatri-Rao Product (MTTKRP) はテンソル計算において最も高価なカーネルの一つである。本稿では,MTTKRPのデータ構造の空間的および時間的局所性を探索する多面記憶システムについて述べる。本システムでは,キャッシュオンリーとDMAオンリーのメモリシステムと比較して,2倍,1.26倍の高速化を実現している。
論文参考訳（メタデータ） (2021-09-18T08:19:29Z)
PIM-DRAM:Accelerating Machine Learning Workloads using Processing in Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文参考訳（メタデータ） (2021-05-08T16:39:24Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)
In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文参考訳（メタデータ） (2020-05-19T15:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。