Fugu-MT 論文翻訳(概要): CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory Architectures

論文の概要: CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory Architectures

arxiv url: http://arxiv.org/abs/2401.07671v2
Date: Wed, 17 Jan 2024 13:49:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 11:12:31.126004
Title: CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory Architectures
Title（参考訳）: CLSA-CIM: 計算メモリアーキテクチャのためのクロスレイヤスケジューリング手法
Authors: Rebecca Pelke, Jose Cubero-Cascante, Nils Bosbach, Felix Staudigl, Rainer Leupers, Jan Moritz Joseph
Abstract要約: CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。 CLSA-CIMと既存の重み付け戦略を統合し,SOTA(State-of-the-art)スケジューリングアルゴリズムとの比較を行った。
参考スコア（独自算出の注目度）: 0.1747623282473278
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The demand for efficient machine learning (ML) accelerators is growing rapidly, driving the development of novel computing concepts such as resistive random access memory (RRAM)-based tiled computing-in-memory (CIM) architectures. CIM allows to compute within the memory unit, resulting in faster data processing and reduced power consumption. Efficient compiler algorithms are essential to exploit the potential of tiled CIM architectures. While conventional ML compilers focus on code generation for CPUs, GPUs, and other von Neumann architectures, adaptations are needed to cover CIM architectures. Cross-layer scheduling is a promising approach, as it enhances the utilization of CIM cores, thereby accelerating computations. Although similar concepts are implicitly used in previous work, there is a lack of clear and quantifiable algorithmic definitions for cross-layer scheduling for tiled CIM architectures. To close this gap, we present CLSA-CIM, a cross-layer scheduling algorithm for tiled CIM architectures. We integrate CLSA-CIM with existing weight-mapping strategies and compare performance against state-of-the-art (SOTA) scheduling algorithms. CLSA-CIM improves the utilization by up to 17.9 x , resulting in an overall speedup increase of up to 29.2 x compared to SOTA.
Abstract（参考訳）: 機械学習(ML)アクセラレーターの需要は急速に増加しており、抵抗ランダムアクセスメモリ(RRAM)ベースのタイル型コンピューティングインメモリ(CIM)アーキテクチャのような新しいコンピューティング概念が発展しつつある。 CIMはメモリユニット内での計算を可能にし、高速なデータ処理と消費電力削減を実現している。効率的なコンパイラアルゴリズムは、タイル付きCIMアーキテクチャの可能性を活用するために不可欠である。従来のMLコンパイラはCPU、GPU、フォン・ノイマンアーキテクチャのコード生成に重点を置いているが、CIMアーキテクチャをカバーするには適応が必要である。 CIMコアの利用が促進され、計算が高速化されるため、層間スケジューリングは有望なアプローチである。同様の概念は以前の研究で暗黙的に使われているが、タイル付きCIMアーキテクチャの層間スケジューリングには明確で定量的なアルゴリズム定義がない。このギャップを埋めるために,CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。 CLSA-CIMを既存の重み付け戦略と統合し、最先端(SOTA)スケジューリングアルゴリズムと比較する。 CLSA-CIMは最大17.9倍の性能向上を実現し、SOTAと比較して総速度は29.2倍に向上した。

関連論文リスト

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators [0.8708298560474775]
CIMアーキテクチャのための混合精度トレーニングおよびコンパイルフレームワークを提案する。最大の課題は巨大な検索スペースであり、優れた量子化パラメータを見つけるのが難しくなる。最良の場合、我々の手法は既存の最先端ソリューションよりも2.48倍のスピードアップを達成し、精度の損失は0.086%である。
論文参考訳（メタデータ） (2026-01-29T13:54:55Z)
Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文参考訳（メタデータ） (2025-11-14T06:27:58Z)
Efficient In-Memory Acceleration of Sparse Block Diagonal LLMs [1.5099440840283813]
構造化されたスパーシリティは、リソース制約のあるシステムに大規模言語モデル(LLM)をデプロイすることを可能にする。本稿では,CIMアクセラレータ上での疎LLM推論を高速化するための新しいマッピングとスケジューリング手法を提案する。提案手法はCIM利用率を50%以上向上させ,メモリフットプリントと浮動小数点演算回数の両面で4倍以上の削減を実現した。
論文参考訳（メタデータ） (2025-10-13T09:25:48Z)
Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。 textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。 SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文参考訳（メタデータ） (2025-05-22T14:11:34Z)
Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文参考訳（メタデータ） (2025-05-09T04:17:05Z)
PACiM: A Sparsity-Centric Hybrid Compute-in-Memory Architecture via Probabilistic Approximation [1.2848824355101671]
本稿では,従来の手法に比べて近似誤差を4倍に削減する新しい確率近似計算法を提案する。 PACは、複雑なMACベクトル計算をスカラー計算に単純化することにより、計算インメモリ(CiM)システムにおける効率の良いスペーサ性ベースの計算を可能にする。 PACiMは、スペーサをフル活用してビットシリアルサイクルを81%削減し、65nmCMOSで14.63TOPS/Wのピーク8b/8b効率を実現する。
論文参考訳（メタデータ） (2024-08-29T03:58:19Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文参考訳（メタデータ） (2024-03-26T16:33:12Z)
CIM-MLC: A Multi-level Compilation Stack for Computing-In-Memory Accelerators [10.756046653406296]
汎用CIMアーキテクチャのための汎用多レベルコンパイルフレームワークであるCIM-MLCを提案する。 CIM-MLCは、複数のアーキテクチャ層にわたるマッピングとスケジューリング戦略を探索することができる。
論文参考訳（メタデータ） (2024-01-23T01:33:09Z)
WWW: What, When, Where to Compute-in-Memory [6.944507442667191]
行列乗算は機械学習(ML)推論において支配的な計算である。このような乗算処理を効率的に行うために、CiM(Compute-in-Memory)パラダイムが高エネルギー効率のソリューションとして登場した。
論文参考訳（メタデータ） (2023-12-26T06:16:12Z)
Fast, Scalable, Warm-Start Semidefinite Programming with Spectral Bundling and Sketching [53.91395791840179]
我々は、大規模なSDPを解くための、証明可能な正確で高速でスケーラブルなアルゴリズムであるUnified Spectral Bundling with Sketching (USBS)を提案する。 USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。
論文参考訳（メタデータ） (2023-12-19T02:27:22Z)
DDC-PIM: Efficient Algorithm/Architecture Co-design for Doubling Data Capacity of SRAM-based Processing-In-Memory [6.367916611208411]
等価データ容量を効果的に2倍にする効率的なアルゴリズム/アーキテクチャ共設計手法であるDDC-PIMを提案する。 DDC-PIMはMobileNetV2で約2.84タイム、EfficientNet-B0で約2.69タイム、精度の損失は無視できる。最先端のマクロと比較して、DDC-PIMは重量密度と面積効率をそれぞれ最大8.41タイムと2.75タイムに改善する。
論文参考訳（メタデータ） (2023-10-31T12:49:54Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文参考訳（メタデータ） (2022-07-16T09:39:53Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
MARS: Multi-macro Architecture SRAM CIM-Based Accelerator with Co-designed Compressed Neural Networks [0.6817102408452476]
畳み込みニューラルネットワーク(CNN)は、ディープラーニングアプリケーションにおいて重要な役割を果たす。 CIMアーキテクチャは大規模行列ベクトル乗算を効果的に計算する大きな可能性を示している。計算コストを削減するため、ネットワークプルーニングと量子化は、モデルサイズを縮小する2つの広く研究されている圧縮手法である。
論文参考訳（メタデータ） (2020-10-24T10:31:49Z)
One-step regression and classification with crosspoint resistive memory arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文参考訳（メタデータ） (2020-05-05T08:00:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。