Fugu-MT 論文翻訳(概要): Efficient Memory Partitioning in Software Defined Hardware

論文の概要: Efficient Memory Partitioning in Software Defined Hardware

arxiv url: http://arxiv.org/abs/2202.01261v1
Date: Wed, 2 Feb 2022 19:48:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-04 14:47:43.888641
Title: Efficient Memory Partitioning in Software Defined Hardware
Title（参考訳）: ソフトウェア定義ハードウェアにおける効率的なメモリパーティショニング
Authors: Matthew Feldman, Tian Zhao, Kunle Olukotun
Abstract要約: 本稿では,従来のシステムよりも効率的なパーティショニング方式を計算できる自動メモリパーティショニングシステムを提案する。本システムでは,各種資源節約最適化とMLコストモデルを用いて,候補の配列から最適な分割方式を選択する。
参考スコア（独自算出の注目度）: 3.3365385050270895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As programmers turn to software-defined hardware (SDH) to maintain a high level of productivity while programming hardware to run complex algorithms, heavy-lifting must be done by the compiler to automatically partition on-chip arrays. In this paper, we introduce an automatic memory partitioning system that can quickly compute more efficient partitioning schemes than prior systems. Our system employs a variety of resource-saving optimizations and an ML cost model to select the best partitioning scheme from an array of candidates. We compared our system against various state-of-the-art SDH compilers and FPGAs on a variety of benchmarks and found that our system generates solutions that, on average, consume 40.3% fewer logic resources, 78.3% fewer FFs, 54.9% fewer Block RAMs (BRAMs), and 100% fewer DSPs.
Abstract（参考訳）: プログラマがソフトウェア定義ハードウェア(SDH)に切り替えて高い生産性を維持する一方で、複雑なアルゴリズムを実行するためにハードウェアをプログラミングする場合は、チップ上の配列を自動的に分割するためにコンパイラーが重い処理を行う必要がある。本稿では,従来のシステムよりも効率的なパーティショニング方式を高速に計算できる自動メモリ分割システムを提案する。本システムでは,各種資源節約最適化とMLコストモデルを用いて,候補の配列から最適な分割方式を選択する。我々は、様々なベンチマークで最先端のSDHコンパイラやFPGAと比較し、我々のシステムは平均して40.3%の論理リソース、78.3%のFF、54.9%のBRAM、100%のDSPを消費するソリューションを生成した。

関連論文リスト

FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文参考訳（メタデータ） (2025-01-24T18:46:37Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
A parallel evolutionary algorithm to optimize dynamic memory managers in embedded systems [4.651702738999686]
組込みシステムにおけるDMM最適化のための新しい並列進化アルゴリズムを提案する。我々のフレームワークは、他の最先端のアプローチと比較して86.40倍のスピードアップを実現しています。
論文参考訳（メタデータ） (2024-06-28T15:47:25Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
HDCC: A Hyperdimensional Computing compiler for classification on embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。 nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文参考訳（メタデータ） (2023-04-24T19:16:03Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
Memory-efficient array redistribution through portable collective communication [0.4096453902709291]
MPIスタイルの集合演算のシーケンスとして配列再分配を合成するためのタイプ指向のアプローチを提案する。我々は, 合成再分配がメモリ効率が高く, 過剰なデータ転送は行わないことを正式に証明した。我々はXLA実装に対する我々のアプローチを評価し、我々のアプローチは幾何平均スピードアップが$1.22times$であり、最大スピードアップが$5.7times$であることを示した。
論文参考訳（メタデータ） (2021-12-02T09:32:07Z)
Reconfigurable Low-latency Memory System for Sparse Matricized Tensor Times Khatri-Rao Product on FPGA [3.4870723728779565]
Sparse Matricized Times Khatri-Rao Product (MTTKRP) はテンソル計算において最も高価なカーネルの一つである。本稿では,MTTKRPのデータ構造の空間的および時間的局所性を探索する多面記憶システムについて述べる。本システムでは,キャッシュオンリーとDMAオンリーのメモリシステムと比較して,2倍,1.26倍の高速化を実現している。
論文参考訳（メタデータ） (2021-09-18T08:19:29Z)
StreamBlocks: A compiler for heterogeneous dataflow computing (technical report) [1.5293427903448022]
この作業では、オープンソースのコンパイラとランタイムであるStreamBlocksを導入し、CALデータフロープログラミング言語を使用して、プラットフォーム間で計算処理を分割する。 StreamBlocksは、最高のハードウェア/ソフトウェアパーティションを特定するためのプロファイル誘導ツールを使用して、デザインスペースの探索をサポートする。
論文参考訳（メタデータ） (2021-07-20T08:46:47Z)
A Vertex Cut based Framework for Load Balancing and Parallelism Optimization in Multi-core Systems [15.913119724815733]
機械学習のような高レベルのアプリケーションは、単純な画像認識のための多層パーセプトロンに基づく単純なモデルから、自動運転車制御システムのためのより深くより複雑なニューラルネットワークへと進化している。高性能コンピュータ上で動作する並列プログラムは、データ通信のボトルネック、メモリ帯域幅の制限、不規則なクリティカルセクションによる同期オーバーヘッドに悩まされることが多い。マルチコアシステムにおけるデータ通信の削減と,これらのアプリケーションのスケーラビリティと性能向上のためのフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-09T07:54:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。