Fugu-MT 論文翻訳(概要): Predicting Memory Compiler Performance Outputs using Feed-Forward Neural Networks

論文の概要: Predicting Memory Compiler Performance Outputs using Feed-Forward Neural Networks

arxiv url: http://arxiv.org/abs/2003.03269v1
Date: Thu, 5 Mar 2020 13:11:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 07:44:16.146243
Title: Predicting Memory Compiler Performance Outputs using Feed-Forward Neural Networks
Title（参考訳）: フィードフォワードニューラルネットワークを用いたメモリコンパイラの性能予測
Authors: Felix Last, Max Haeberlein, Ulf Schlichtmann
Abstract要約: チップの設計フローにおける重要なタスクは、最適なメモリコンパイラのパラメトリゼーションを見つけることである。本稿では,メモリコンパイラがパラメータ化した場合の出力を予測するために,完全に接続されたフィードフォワードニューラルネットワークを提案する。網羅的な検索ベースのフレームワークを使用して、チップ設計者が要求を指定してから数秒以内に、PPA最適化パラメトリゼーションが見つかる。
参考スコア（独自算出の注目度）: 2.1094836466667606
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Typical semiconductor chips include thousands of mostly small memories. As memories contribute an estimated 25% to 40% to the overall power, performance, and area (PPA) of a chip, memories must be designed carefully to meet the system's requirements. Memory arrays are highly uniform and can be described by approximately 10 parameters depending mostly on the complexity of the periphery. Thus, to improve PPA utilization, memories are typically generated by memory compilers. A key task in the design flow of a chip is to find optimal memory compiler parametrizations which on the one hand fulfill system requirements while on the other hand optimize PPA. Although most compiler vendors also provide optimizers for this task, these are often slow or inaccurate. To enable efficient optimization in spite of long compiler run times, we propose training fully connected feed-forward neural networks to predict PPA outputs given a memory compiler parametrization. Using an exhaustive search-based optimizer framework which obtains neural network predictions, PPA-optimal parametrizations are found within seconds after chip designers have specified their requirements. Average model prediction errors of less than 3%, a decision reliability of over 99% and productive usage of the optimizer for successful, large volume chip design projects illustrate the effectiveness of the approach.
Abstract（参考訳）: 典型的な半導体チップには数千の小さな記憶が含まれている。メモリはチップ全体の電力、性能、面積(PPA)に25%から40%の寄与があるので、システムの要件を満たすように慎重に設計する必要がある。メモリアレイは非常に均一であり、周辺領域の複雑さに大きく依存する約10のパラメータで記述できる。したがって、PPA利用を改善するために、メモリコンパイラーによって通常メモリが生成される。チップの設計フローにおける重要な課題は、一方がシステム要件を満たし、他方がPPAを最適化する最適なメモリコンパイラパラメトリゼーションを見つけることである。ほとんどのコンパイラベンダーはこのタスクのオプティマイザも提供しているが、これらはしばしば遅いか不正確である。長いコンパイラ実行時間にもかかわらず、効率的な最適化を実現するため、メモリコンパイラのパラメトリゼーションによりPPA出力を予測するために、完全に接続されたフィードフォワードニューラルネットワークのトレーニングを提案する。ニューラルネットワーク予測を得るサーチベースオプティマイザフレームワークを使用して、ppa最適化は、チップ設計者が要求を指定してから数秒以内に見つかる。平均モデル予測誤差は3%未満であり、決定信頼性は99%を超え、大容量チップ設計プロジェクトの成功のために最適化器の生産的利用は、このアプローチの有効性を示している。

関連論文リスト

Hardware-software co-exploration with racetrack memory based in-memory computing for CNN inference in embedded systems [54.045712360156024]
レーストラックメモリは、データ密度の高い製造を可能にする不揮発性技術である。メモリセルを持つインメモリ演算回路は、メモリ密度と電力効率の両方に影響を与える。レーストラックメモリに最適化された効率的なインメモリ畳み込みニューラルネットワーク(CNN)アクセラレータを提案する。
論文参考訳（メタデータ） (2025-07-02T07:29:53Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文参考訳（メタデータ） (2024-06-26T08:44:36Z)
Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM Fine-Tuning [67.44661423463927]
本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
論文参考訳（メタデータ） (2024-02-24T07:22:04Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Pex: Memory-efficient Microcontroller Deep Learning through Partial Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文参考訳（メタデータ） (2022-11-30T18:47:30Z)
Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文参考訳（メタデータ） (2022-05-09T22:48:39Z)
Practical tradeoffs between memory, compute, and performance in learned optimizers [46.04132441790654]
我々は、多くの学習や手作業で設計された機能に対して、メモリ、計算、パフォーマンスのトレードオフを特定し、定量化する。分析を活用して、従来の作業よりも速く、より効率的に学習可能なものを構築するのです。
論文参考訳（メタデータ） (2022-03-22T16:36:36Z)
Differentially Evolving Memory Ensembles: Pareto Optimization based on Computational Intelligence for Embedded Memories on a System Level [2.1094836466667606]
本稿では,計算機知能を用いてメモリシステムの最適化問題を解く方法について述べる。私たちのフレームワークは、小さなリソースフットプリントを維持しながら、数千のメモリのシステムの最適化を可能にします。
論文参考訳（メタデータ） (2021-09-20T12:53:08Z)
Continual Learning Approach for Improving the Data and Computation Mapping in Near-Memory Processing System [3.202860612193139]
ページと計算再マッピングによるデータ配置とリソース活用を最適化する人工知能メモリマッピング方式であるAIMMを提案する。 AIMMはニューラルネットワークを使用して、強化学習アルゴリズムを使用して訓練された実行中にほぼ最適なマッピングを実現します。本研究では,AIMMが単一および複数プログラムシナリオにおけるベースラインNMP性能を最大70%と50%向上させたことを評価した。
論文参考訳（メタデータ） (2021-04-28T09:50:35Z)
TASO: Time and Space Optimization for Memory-Constrained DNN Inference [5.023660118588569]
畳み込みニューラルネットワーク(CNN)は、産業用ロボティクスや自動化システムからモバイルデバイスでの生体認証まで、多くの組み込みアプリケーションで使用されている。本稿では、畳み込み層を実装するプリミティブ演算を選択するための整数線形計画法(ILP)に基づくCNNモデルの事前ドメイン固有最適化手法を提案する。
論文参考訳（メタデータ） (2020-05-21T15:08:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。