Fugu-MT 論文翻訳(概要): CiMNet: Towards Joint Optimization for DNN Architecture and Configuration for Compute-In-Memory Hardware

論文の概要: CiMNet: Towards Joint Optimization for DNN Architecture and Configuration for Compute-In-Memory Hardware

arxiv url: http://arxiv.org/abs/2402.11780v2
Date: Mon, 18 Mar 2024 15:25:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 23:12:03.478877
Title: CiMNet: Towards Joint Optimization for DNN Architecture and Configuration for Compute-In-Memory Hardware
Title（参考訳）: CiMNet:DNNアーキテクチャとコンピュート・イン・メモリハードウェアの構成を共同で最適化する
Authors: Souvik Kundu, Anthony Sarah, Vinay Joshi, Om J Omer, Sreenivas Subramoney,
Abstract要約: 計算インメモリ(CiM)のための最適なサブネットワークとハードウェア構成を共同で検索するフレームワークであるCiMNetを提案する。提案するフレームワークは、サブネットワークの性能とCiMハードウェア構成選択の間の複雑な相互作用を理解することができる。
参考スコア（独自算出の注目度）: 6.308771129448823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the recent growth in demand for large-scale deep neural networks, compute in-memory (CiM) has come up as a prominent solution to alleviate bandwidth and on-chip interconnect bottlenecks that constrain Von-Neuman architectures. However, the construction of CiM hardware poses a challenge as any specific memory hierarchy in terms of cache sizes and memory bandwidth at different interfaces may not be ideally matched to any neural network's attributes such as tensor dimension and arithmetic intensity, thus leading to suboptimal and under-performing systems. Despite the success of neural architecture search (NAS) techniques in yielding efficient sub-networks for a given hardware metric budget (e.g., DNN execution time or latency), it assumes the hardware configuration to be frozen, often yielding sub-optimal sub-networks for a given budget. In this paper, we present CiMNet, a framework that jointly searches for optimal sub-networks and hardware configurations for CiM architectures creating a Pareto optimal frontier of downstream task accuracy and execution metrics (e.g., latency). The proposed framework can comprehend the complex interplay between a sub-network's performance and the CiM hardware configuration choices including bandwidth, processing element size, and memory size. Exhaustive experiments on different model architectures from both CNN and Transformer families demonstrate the efficacy of the CiMNet in finding co-optimized sub-networks and CiM hardware configurations. Specifically, for similar ImageNet classification accuracy as baseline ViT-B, optimizing only the model architecture increases performance (or reduces workload execution time) by 1.7x while optimizing for both the model architecture and hardware configuration increases it by 3.1x.
Abstract（参考訳）: 近年の大規模ディープニューラルネットワークの需要増加に伴い、コンピューティングインメモリ(CiM)は、Von-Neumanアーキテクチャを制約する帯域幅とオンチップの相互接続ボトルネックを緩和する重要なソリューションとして浮上した。しかし、CiMハードウェアの構築は、異なるインタフェースにおけるキャッシュサイズとメモリ帯域幅の特定のメモリ階層が、テンソル次元や演算強度などのニューラルネットワークの属性と理想的に一致しない可能性があるため、最適化された性能の低いシステムに繋がる。ニューラルネットワークサーチ(NAS)技術は、所定のハードウェアメトリック予算(例えば、DNNの実行時間やレイテンシ)に対して効率的なサブネットワークを提供するのに成功しているが、ハードウェア構成は凍結され、しばしば与えられた予算に対して最適なサブネットワークを提供する。本稿では,CiMアーキテクチャのための最適なサブネットワークとハードウェア構成を共同で検索するフレームワークであるCiMNetを提案する。提案フレームワークは、サブネットワークの性能と、帯域幅、処理要素サイズ、メモリサイズを含むCiMハードウェア構成の選択との間の複雑な相互作用を理解することができる。 CNNとTransformerファミリーの異なるモデルアーキテクチャに関する実験は、CiMNetが協調最適化サブネットワークとCiMハードウェア構成を見つける上で有効であることを実証している。具体的には、ImageNetの分類精度をベースラインのViT-Bと同等にするために、モデルアーキテクチャのみを最適化するとパフォーマンスが1.7倍に向上し、モデルアーキテクチャとハードウェア構成の両方を最適化すると3.1倍に向上する。

関連論文リスト

Range Asymmetric Numeral Systems-Based Lightweight Intermediate Feature Compression for Split Computing of Deep Neural Networks [5.186026342830856]
Splitコンピューティングは、リソース制約のあるエッジデバイスとクラウドサーバの間で、ディープニューラルネットワーク推論を分散する。本研究では、非対称整数量子化とスパーステンソル表現を併用したレンジ非対称数値システム(rANS)の符号化を利用して、伝送オーバーヘッドを劇的に低減する新しい軽量圧縮フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-11T12:33:59Z)
xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。 xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。 xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文参考訳（メタデータ） (2025-10-16T13:53:47Z)
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。 AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-07T18:43:17Z)
RNC: Efficient RRAM-aware NAS and Compilation for DNNs on Resource-Constrained Edge Devices [0.30458577208819987]
我々は抵抗性ランダムアクセスメモリ(RRAM)に基づく加速器のためのエッジフレンドリーなディープニューラルネットワーク(DNN)の開発を目指している。本稿では,特定のハードウェア制約を満たす最適化ニューラルネットワークを探索するための,エッジコンパイルとリソース制約付きRRAM対応ニューラルネットワーク探索(NAS)フレームワークを提案する。 NASが速度に最適化した結果のモデルは5x-30倍のスピードアップを達成した。
論文参考訳（メタデータ） (2024-09-27T15:35:36Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
Core interface optimization for multi-core neuromorphic processors [5.391889175209394]
スパイキングニューラルネットワーク(SNN)は、低消費電力と低レイテンシを必要とするアプリケーションのエッジコンピューティングに対する有望なアプローチである。大規模かつスケーラブルなSNNを実現するためには,効率的な非同期通信およびルーティングファブリックを開発する必要がある。
論文参考訳（メタデータ） (2023-08-08T10:00:14Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文参考訳（メタデータ） (2021-09-21T09:57:21Z)
Reconfigurable co-processor architecture with limited numerical precision to accelerate deep convolutional neural networks [0.38848561367220275]
畳み込みニューラルネットワーク(CNN)は、視覚システムやロボット工学などのディープラーニングアプリケーションで広く使われている。本稿では,CNNを高速化するために,モデルに依存しない再構成可能なコプロセッシングアーキテクチャを提案する。既存の解とは対照的に、算術表現や演算のための限定精度32bit Q-format固定点量子化を導入する。
論文参考訳（メタデータ） (2021-08-21T09:50:54Z)
NAX: Co-Designing Neural Network and Hardware Architecture for Memristive Xbar based Computing Systems [7.481928921197249]
Memristive Crossbar Arrays (MCAs) を用いたインメモリコンピューティング(IMC)ハードウェアは、Deep Neural Networks (DNN) を加速するために人気を集めている。ニューラルネットワークとIMCベースのハードウェアアーキテクチャを共同設計する,効率的なニューラルネットワーク検索エンジンであるNAXを提案する。
論文参考訳（メタデータ） (2021-06-23T02:27:00Z)
Towards Accurate and Compact Architectures via Neural Architecture Transformer [95.4514639013144]
計算コストを増すことなくパフォーマンスを向上させるために、アーキテクチャ内の操作を最適化する必要がある。我々は最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案している。 NAT++(Neural Architecture Transformer++)メソッドを提案し、アーキテクチャ最適化のパフォーマンスを改善するために、候補遷移のセットをさらに拡大する。
論文参考訳（メタデータ） (2021-02-20T09:38:10Z)
Neural Architecture Optimization with Graph VAE [21.126140965779534]
連続空間におけるネットワークアーキテクチャを最適化するための効率的なNAS手法を提案する。フレームワークは、エンコーダ、パフォーマンス予測器、複雑性予測器、デコーダの4つのコンポーネントを共同で学習する。
論文参考訳（メタデータ） (2020-06-18T07:05:48Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。