論文の概要: ARCO:Adaptive Multi-Agent Reinforcement Learning-Based Hardware/Software Co-Optimization Compiler for Improved Performance in DNN Accelerator Design
- arxiv url: http://arxiv.org/abs/2407.08192v2
- Date: Mon, 22 Jul 2024 05:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 00:31:58.254188
- Title: ARCO:Adaptive Multi-Agent Reinforcement Learning-Based Hardware/Software Co-Optimization Compiler for Improved Performance in DNN Accelerator Design
- Title(参考訳): ARCO:DNN加速器設計における性能向上のための適応型マルチエージェント強化学習ベースハードウェア/ソフトウェア共最適化コンパイラ
- Authors: Arya Fayyazi, Mehdi Kamal, Massoud Pedram,
- Abstract要約: ARCOは適応型マルチエージェント強化学習(MARL)ベースの協調最適化コンパイルフレームワークである。
このフレームワークには、MARL内に3つのアクター批判エージェントが含まれており、それぞれがコンパイル/最適化の異なる側面に特化している。
- 参考スコア(独自算出の注目度): 4.825037489691159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents ARCO, an adaptive Multi-Agent Reinforcement Learning (MARL)-based co-optimizing compilation framework designed to enhance the efficiency of mapping machine learning (ML) models - such as Deep Neural Networks (DNNs) - onto diverse hardware platforms. The framework incorporates three specialized actor-critic agents within MARL, each dedicated to a distinct aspect of compilation/optimization at an abstract level: one agent focuses on hardware, while two agents focus on software optimizations. This integration results in a collaborative hardware/software co-optimization strategy that improves the precision and speed of DNN deployments. Concentrating on high-confidence configurations simplifies the search space and delivers superior performance compared to current optimization methods. The ARCO framework surpasses existing leading frameworks, achieving a throughput increase of up to 37.95% while reducing the optimization time by up to 42.2% across various DNNs.
- Abstract(参考訳): 本稿では,MLモデル(Deep Neural Networks (DNN) など)の多種多様なハードウェアプラットフォームへのマッピング効率の向上を目的とした,適応型マルチエージェント強化学習(MARL)ベースの協調最適化コンパイルフレームワークであるARCOを提案する。
このフレームワークは、MARL内に3つの特別なアクター批判エージェントを組み込んでおり、それぞれが抽象レベルでコンパイル/最適化の異なる側面に特化している: 1つのエージェントはハードウェアに焦点を当て、2つのエージェントはソフトウェア最適化に焦点を当てている。
この統合により、DNNデプロイメントの精度とスピードを改善するハードウェア/ソフトウェアの共同最適化戦略が実現される。
高信頼度構成に集中することで、探索空間が簡単になり、現在の最適化手法よりも優れた性能が得られる。
ARCOフレームワークは既存の主要なフレームワークを超え、スループットを最大37.95%向上させ、最適化時間を様々なDNNで最大42.2%削減した。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Combining Neural Architecture Search and Automatic Code Optimization: A Survey [0.8796261172196743]
ハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)と自動コード最適化(ACO)の2つの特長がある。
HW-NASは正確だがハードウェアフレンドリなニューラルネットワークを自動設計する。
この調査では、これらの2つのテクニックをひとつのフレームワークで組み合わせた最近の研究について調査する。
論文 参考訳(メタデータ) (2024-08-07T22:40:05Z) - Iterative or Innovative? A Problem-Oriented Perspective for Code Optimization [81.88668100203913]
大規模言語モデル(LLM)は、幅広いプログラミングタスクを解く上で強力な能力を示している。
本稿では,パフォーマンス向上に着目したコード最適化について検討する。
論文 参考訳(メタデータ) (2024-06-17T16:10:10Z) - Federated Multi-Level Optimization over Decentralized Networks [55.776919718214224]
エージェントが隣人としか通信できないネットワーク上での分散マルチレベル最適化の問題について検討する。
ネットワーク化されたエージェントが1つの時間スケールで異なるレベルの最適化問題を解くことができる新しいゴシップに基づく分散マルチレベル最適化アルゴリズムを提案する。
提案アルゴリズムは, ネットワークサイズと線形にスケーリングし, 各種アプリケーション上での最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-10T00:21:10Z) - Characterizing Speed Performance of Multi-Agent Reinforcement Learning [5.313762764969945]
MARL(Multi-Agent Reinforcement Learning)は、大規模AIシステムや、スマートグリッドや監視などビッグデータアプリケーションにおいて、大きな成功を収めています。
MARLアルゴリズムの既存の進歩は、エージェント間協調のための様々なメカニズムを導入して得られる報酬の改善に焦点を当てている。
我々は、MARL実装において、速度性能(すなわち、レイテンシ境界スループット)を重要な指標として分析する。
論文 参考訳(メタデータ) (2023-09-13T17:26:36Z) - MetaML: Automating Customizable Cross-Stage Design-Flow for Deep
Learning Acceleration [5.2487252195308844]
本稿では,ディープニューラルネットワーク(DNN)ハードウェアアクセラレータのための新しい最適化フレームワークを提案する。
設計フローアーキテクチャ構築のための新しい最適化と変換タスクを導入する。
以上の結果から,DSP使用率92%,LUT使用率89%の大幅な削減が得られた。
論文 参考訳(メタデータ) (2023-06-14T21:06:07Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z) - Automated Design Space Exploration for optimised Deployment of DNN on
Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。
テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。
我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文 参考訳(メタデータ) (2020-06-09T11:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。