論文の概要: OpenACMv2: An Accuracy-Constrained Co-Optimization Framework for Approximate DCiM
- arxiv url: http://arxiv.org/abs/2603.13042v1
- Date: Fri, 13 Mar 2026 14:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.136856
- Title: OpenACMv2: An Accuracy-Constrained Co-Optimization Framework for Approximate DCiM
- Title(参考訳): OpenACMv2: 近似DCiMのための精度制約付き協調最適化フレームワーク
- Authors: Yiqi Zhou, Yue Yuan, Yikai Wang, Bohao Liu, Qinxin Mei, Zhuohua Liu, Shan Shen, Wei Xing, Daying Sun, Li Li, Guozhu Liu,
- Abstract要約: Digital Compute-in-Memory (DCiM)は、データ移動を減らすことでニューラルネットワークを加速する。
DCiMは、PPA(Power-Performance-Area)をさらに改善するが、精度に制約のあるコ最適化を必要とする。
2段階最適化によりACCOを運用するオープンフレームワークOpenACMv2を提案する。
- 参考スコア(独自算出の注目度): 12.339184350839451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital Compute-in-Memory (DCiM) accelerates neural networks by reducing data movement. Approximate DCiM can further improve power-performance-area (PPA), but demands accuracy-constrained co-optimization across coupled architecture and transistor-level choices. Building on OpenYield, we introduce Accuracy-Constrained Co-Optimization (ACCO) and present OpenACMv2, an open framework that operationalizes ACCO via two-level optimization: (1) accuracy-constrained architecture search of compressor combinations and SRAM macro parameters, driven by a fast GNN-based surrogate for PPA and error; and (2) variation- and PVT-aware transistor sizing for standard cells and SRAM bitcells using Monte Carlo. By decoupling ACCO into architecture-level exploration and circuit-level sizing, OpenACMv2 integrates classic single- and multi-objective optimizers to deliver strong PPA-accuracy tradeoffs and robust convergence. The workflow is compatible with FreePDK45 and OpenROAD, supporting reproducible evaluation and easy adoption. Experiments demonstrate significant PPA improvements under controlled accuracy budgets, enabling rapid "what-if" exploration for approximate DCiM. The framework is available on https://github.com/ShenShan123/OpenACM.
- Abstract(参考訳): Digital Compute-in-Memory (DCiM)は、データ移動を減らすことでニューラルネットワークを加速する。
近似DCiMは、PPA(Power-Performance-area)をさらに改善するが、結合アーキテクチャとトランジスタレベルの選択の間で、精度に制約のあるコ最適化を要求する。
OpenYield 上に構築した OpenACMv2 は,(1) 圧縮器の組み合わせと SRAM マクロパラメータの精度に制約のあるアーキテクチャ探索,(2) モンテカルロを用いた標準セルとSRAM ビットセルの可変・PVT 対応トランジスタ,といった2段階の最適化によって ACCO を動作させるオープンフレームワークである。
ACCOをアーキテクチャレベルの探索と回路レベルのサイズに分離することで、OpenACMv2は古典的なシングルオブジェクトとマルチオブジェクトのオプティマイザを統合し、強力なPPA精度トレードオフと堅牢な収束を実現する。
ワークフローはFreePDK45とOpenROADと互換性があり、再現可能な評価と容易に採用できる。
実験では、制御された精度の予算下でのPPAの大幅な改善が示され、近似DCiMの高速な「What-if」探索が可能となった。
フレームワークはhttps://github.com/ShenShan123/OpenACMで入手できる。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - GLM-OCR Technical Report [65.42028025507491]
GLM-OCRは実世界の文書理解のために設計された効率的なコンパクトモデルである。
CogViTビジュアルエンコーダとGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。
公開ベンチマークと産業シナリオの大規模な評価は、GLM-OCRが競争力や最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-03-11T15:55:47Z) - Joint Channel Estimation and Computation Offloading in Fluid Antenna-assisted MEC Networks [81.36647816787713]
チャネル推定の遅延を最小限に抑えるためのFA支援オフロードフレームワークを提案する。
提案方式は,効率的な通信を行う場合の精度を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-09-16T08:48:44Z) - Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - Optical ISAC: Fundamental Performance Limits and Transceiver Design [5.97536075941862]
本稿では,光ポイントツーポイントシステムにおける最適容量歪み(C-D)トレードオフを特徴付ける。
我々は、最適速度歪み(R-D)領域を考察し、いくつかの内外境界(OB)を探索する。
論文 参考訳(メタデータ) (2024-08-21T17:25:40Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Intelligent and Reconfigurable Architecture for KL Divergence Based
Online Machine Learning Algorithm [0.0]
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
論文 参考訳(メタデータ) (2020-02-18T16:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。