論文の概要: Towards Efficient IMC Accelerator Design Through Joint Hardware-Workload Co-optimization
- arxiv url: http://arxiv.org/abs/2410.16759v1
- Date: Tue, 22 Oct 2024 07:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:27:51.567989
- Title: Towards Efficient IMC Accelerator Design Through Joint Hardware-Workload Co-optimization
- Title(参考訳): ハードウェア-ワークロード共同最適化による効率的なMCC加速器設計に向けて
- Authors: Olga Krestinskaya, Mohammed E. Fouda, Ahmed Eltawil, Khaled N. Salama,
- Abstract要約: IMCチップアーキテクチャパラメータを最適化するハードウェア-ワークロード最適化フレームワークを提案する。
VGG16, ResNet18, AlexNet, MobileNetV3の36%, 36%, 20%, 69%のエネルギー待ち時間スコアが達成された。
- 参考スコア(独自算出の注目度): 1.5824413993211348
- License:
- Abstract: Designing generalized in-memory computing (IMC) hardware that efficiently supports a variety of workloads requires extensive design space exploration, which is infeasible to perform manually. Optimizing hardware individually for each workload or solely for the largest workload often fails to yield the most efficient generalized solutions. To address this, we propose a joint hardware-workload optimization framework that identifies optimised IMC chip architecture parameters, enabling more efficient, workload-flexible hardware. We show that joint optimization achieves 36%, 36%, 20%, and 69% better energy-latency-area scores for VGG16, ResNet18, AlexNet, and MobileNetV3, respectively, compared to the separate architecture parameters search optimizing for a single largest workload. Additionally, we quantify the performance trade-offs and losses of the resulting generalized IMC hardware compared to workload-specific IMC designs.
- Abstract(参考訳): 様々なワークロードを効率的にサポートする汎用インメモリコンピューティング(IMC)ハードウェアを設計するには、広範囲の設計空間探索が必要であり、手動で実行することは不可能である。
ハードウェアを各ワークロードに対して個別に最適化するか、あるいは最大のワークロードのみに最適化することは、しばしば最も効率的な一般化されたソリューションを得るのに失敗する。
そこで本研究では,IMCチップアーキテクチャパラメータを最適化し,より効率的な作業負荷柔軟ハードウェアを実現するハードウェア-ワークロード最適化フレームワークを提案する。
VGG16, ResNet18, AlexNet, MobileNetV3の36%, 36%, 20%, 69%のエネルギー待ち時間スコアが, 1つの最大のワークロードを最適化するアーキテクチャパラメータの検索と比較すると, 共同最適化がそれぞれ36%, 36%, 20%, 69%向上していることが示されている。
さらに、ワークロード固有のIMC設計と比較して、結果の汎用IMCハードウェアの性能トレードオフと損失を定量化する。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - FlashGS: Efficient 3D Gaussian Splatting for Large-scale and High-resolution Rendering [11.727367585102112]
FlashGSは、3D Gaussian Splattingの効率的な差別化を容易にするように設計されている。
FlashGSの性能評価は、多種多様な合成シーンと実世界の大規模シーンで行われている。
結果は、FlashGSの優れたパフォーマンスとリソース最適化能力を強調し、それを3Dレンダリングの領域における恐ろしいツールとして位置づけた。
論文 参考訳(メタデータ) (2024-08-15T06:27:42Z) - ARCO:Adaptive Multi-Agent Reinforcement Learning-Based Hardware/Software Co-Optimization Compiler for Improved Performance in DNN Accelerator Design [4.825037489691159]
ARCOは適応型マルチエージェント強化学習(MARL)ベースの協調最適化コンパイルフレームワークである。
このフレームワークには、MARL内に3つのアクター批判エージェントが含まれており、それぞれがコンパイル/最適化の異なる側面に特化している。
論文 参考訳(メタデータ) (2024-07-11T05:22:04Z) - A parallel evolutionary algorithm to optimize dynamic memory managers in embedded systems [4.651702738999686]
組込みシステムにおけるDMM最適化のための新しい並列進化アルゴリズムを提案する。
我々のフレームワークは、他の最先端のアプローチと比較して86.40倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2024-06-28T15:47:25Z) - Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
並列戦略を重畳した新しいショートカット接続型MoE(ScMoE)アーキテクチャを提案する。
ScMoEは計算で70%から100%のオーバラップを可能にする。
ScMoEアーキテクチャに基づいて、メモリ制限推論を容易にする専門家のオフロード戦略をさらに実装する。
論文 参考訳(メタデータ) (2024-04-07T17:17:23Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - A Full-stack Accelerator Search Technique for Vision Applications [11.932331630567512]
本稿では,幅広い最適化環境を定義するハードウェアアクセラレーター検索フレームワークを提案する。
FASTは、どんな数やタイプのディープラーニングのワークロードでも使用できる。
単一のワークロードに最適化されたFASTによって生成された設計は、ベストケースではPerf/TDPを6倍改善することができる。
限定的なワークロードサブセットでは、FASTはPerf/TDP 2.85xを平均で改善し、ワークロードセットに最適化された単一の設計に対して2.35xに削減する。
論文 参考訳(メタデータ) (2021-05-26T21:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。