論文の概要: Joint Hardware-Workload Co-Optimization for In-Memory Computing Accelerators
- arxiv url: http://arxiv.org/abs/2603.03880v1
- Date: Wed, 04 Mar 2026 09:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.252671
- Title: Joint Hardware-Workload Co-Optimization for In-Memory Computing Accelerators
- Title(参考訳): インメモリ・コンピューティング・アクセラレータのハードウェア・ワークロード共同最適化
- Authors: Olga Krestinskaya, Mohammed E. Fouda, Ahmed Eltawil, Khaled N. Salama,
- Abstract要約: 本研究は、一般化IMC加速器アーキテクチャを設計するための最適化された進化的アルゴリズムに基づく、ハードウェアとワークロードの共同最適化フレームワークを提案する。
一つのモデルに最適化するのではなく、クロスワークロードのトレードオフを明示的に把握することにより、提案手法は、ワークロード固有のIMC設計と一般化IMC設計の間の性能ギャップを著しく低減する。
- 参考スコア(独自算出の注目度): 1.4979445283937187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software-hardware co-design is essential for optimizing in-memory computing (IMC) hardware accelerators for neural networks. However, most existing optimization frameworks target a single workload, leading to highly specialized hardware designs that do not generalize well across models and applications. In contrast, practical deployment scenarios require a single IMC platform that can efficiently support multiple neural network workloads. This work presents a joint hardware-workload co-optimization framework based on an optimized evolutionary algorithm for designing generalized IMC accelerator architectures. By explicitly capturing cross-workload trade-offs rather than optimizing for a single model, the proposed approach significantly reduces the performance gap between workload-specific and generalized IMC designs. The framework is evaluated on both RRAM- and SRAM-based IMC architectures, demonstrating strong robustness and adaptability across diverse design scenarios. Compared to baseline methods, the optimized designs achieve energy-delay-area product (EDAP) reductions of up to 76.2% and 95.5% when optimizing across a small set (4 workloads) and a large set (9 workloads), respectively. The source code of the framework is available at https://github.com/OlgaKrestinskaya/JointHardwareWorkloadOptimizationIMC.
- Abstract(参考訳): ソフトウェアハードウェアの共同設計は、ニューラルネットワークのためのインメモリコンピューティング(IMC)ハードウェアアクセラレータの最適化に不可欠である。
しかし、既存の最適化フレームワークのほとんどは単一のワークロードをターゲットにしており、モデルやアプリケーション間でうまく一般化しない、高度に専門的なハードウェア設計につながっている。
対照的に、実践的なデプロイメントシナリオでは、複数のニューラルネットワークワークロードを効率的にサポートできる単一のIMCプラットフォームが必要です。
本研究は、一般化IMC加速器アーキテクチャを設計するための最適化された進化的アルゴリズムに基づく、ハードウェアとワークロードの共同最適化フレームワークを提案する。
一つのモデルに最適化するのではなく、クロスワークロードのトレードオフを明示的に把握することにより、提案手法は、ワークロード固有のIMC設計と一般化IMC設計の間の性能ギャップを著しく低減する。
このフレームワークはRRAMとSRAMベースのMCCアーキテクチャの両方で評価され、多様な設計シナリオにおいて強い堅牢性と適応性を示す。
ベースライン方式と比較して、最適化された設計は、それぞれ小さなセット(4つのワークロード)と大きなセット(9つのワークロード)を最適化する際に、最大76.2%と95.5%のエネルギー遅延面積(EDAP)削減を達成する。
フレームワークのソースコードはhttps://github.com/OlgaKrestinskaya/JointHardwareWorkloadOptimizationIMCで公開されている。
関連論文リスト
- Software-Hardware Co-optimization for Modular E2E AV Paradigm: A Unified Framework of Optimization Approaches, Simulation Environment and Evaluation Metrics [21.03304462504213]
本稿では,ME2E自律運転推論のための再利用可能なソフトウェアとハードウェアの共同最適化およびクローズドループ評価フレームワークを提案する。
提案フレームワークは,推定遅延とエネルギー消費を大幅に低減しつつ,ベースラインレベルの駆動性能を維持する。
論文 参考訳(メタデータ) (2026-01-12T10:22:50Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - MAHL: Multi-Agent LLM-Guided Hierarchical Chiplet Design with Adaptive Debugging [30.305211001929496]
大きな言語モデル(LLM)は2.5Dに拡張することを約束している。
LLMはフラットな設計、高い検証コスト、不正確なパラメータ最適化といった課題に直面している。
階層型LLMベースのチップレット設計生成フレームワークであるMAHLを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:47:31Z) - Automatic Operator-level Parallelism Planning for Distributed Deep Learning -- A Mixed-Integer Programming Approach [6.449961842220686]
本稿では,最適性と計算効率のバランスをとる二段階のソリューションフレームワークを提案する。
我々のフレームワークは、同等または優れた性能を実現し、同じメモリ制約下で計算バブルを半分に減らします。
このような能力は、最適な並列化戦略を探求するための貴重な研究ツールであり、大規模なAIデプロイメントのための実践的な産業ソリューションである。
論文 参考訳(メタデータ) (2025-03-12T13:00:29Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Accelerated Gradient-based Design Optimization Via Differentiable Physics-Informed Neural Operator: A Composites Autoclave Processing Case Study [0.0]
本稿では,複雑な工学系の非線形挙動を効果的にモデル化する物理インフォームドディープONet(PIDON)アーキテクチャを提案する。
3倍の高速化を実現した航空宇宙グレード複合材料硬化プロセスの最適化における本フレームワークの有効性を実証する。
提案モデルには,高度工学およびディジタルツインシステムにおける幅広い応用のための,スケーラブルで効率的な最適化ツールとして使用される可能性がある。
論文 参考訳(メタデータ) (2025-02-17T07:11:46Z) - AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Towards Efficient IMC Accelerator Design Through Joint Hardware-Workload Co-optimization [1.5824413993211348]
IMCチップアーキテクチャパラメータを最適化するハードウェア-ワークロード最適化フレームワークを提案する。
VGG16, ResNet18, AlexNet, MobileNetV3の36%, 36%, 20%, 69%のエネルギー待ち時間スコアが達成された。
論文 参考訳(メタデータ) (2024-10-22T07:25:17Z) - Dynamic Co-Optimization Compiler: Leveraging Multi-Agent Reinforcement Learning for Enhanced DNN Accelerator Performance [4.825037489691159]
本稿では,新しい動的共最適化コンパイラ(DCOC)を紹介する。
DCOCは、機械学習(ML)モデルをさまざまなハードウェアプラットフォームにマッピングする効率を高めるために、適応型マルチエージェント強化学習(MARL)フレームワークを使用している。
以上の結果から,DCOCはスループットを最大37.95%向上し,最適化時間を最大42.2%削減した。
論文 参考訳(メタデータ) (2024-07-11T05:22:04Z) - CiMNet: Towards Joint Optimization for DNN Architecture and Configuration for Compute-In-Memory Hardware [6.308771129448823]
計算インメモリ(CiM)のための最適なサブネットワークとハードウェア構成を共同で検索するフレームワークであるCiMNetを提案する。
提案するフレームワークは、サブネットワークの性能とCiMハードウェア構成選択の間の複雑な相互作用を理解することができる。
論文 参考訳(メタデータ) (2024-02-19T02:12:07Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。