Fugu-MT 論文翻訳(概要): Dynamic Co-Optimization Compiler: Leveraging Multi-Agent Reinforcement Learning for Enhanced DNN Accelerator Performance

論文の概要: Dynamic Co-Optimization Compiler: Leveraging Multi-Agent Reinforcement Learning for Enhanced DNN Accelerator Performance

arxiv url: http://arxiv.org/abs/2407.08192v3
Date: Fri, 21 Feb 2025 21:17:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.398765
Title: Dynamic Co-Optimization Compiler: Leveraging Multi-Agent Reinforcement Learning for Enhanced DNN Accelerator Performance
Title（参考訳）: 動的共最適化コンパイラ:DNN加速器性能向上のためのマルチエージェント強化学習の活用
Authors: Arya Fayyazi, Mehdi Kamal, Massoud Pedram,
Abstract要約: 本稿では,新しい動的共最適化コンパイラ(DCOC)を紹介する。 DCOCは、機械学習(ML)モデルをさまざまなハードウェアプラットフォームにマッピングする効率を高めるために、適応型マルチエージェント強化学習(MARL)フレームワークを使用している。以上の結果から,DCOCはスループットを最大37.95%向上し,最適化時間を最大42.2%削減した。
参考スコア（独自算出の注目度）: 4.825037489691159
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a novel Dynamic Co-Optimization Compiler (DCOC), which employs an adaptive Multi-Agent Reinforcement Learning (MARL) framework to enhance the efficiency of mapping machine learning (ML) models, particularly Deep Neural Networks (DNNs), onto diverse hardware platforms. DCOC incorporates three specialized actor-critic agents within MARL, each dedicated to different optimization facets: one for hardware and two for software. This cooperative strategy results in an integrated hardware/software co-optimization approach, improving the precision and speed of DNN deployments. By focusing on high-confidence configurations, DCOC effectively reduces the search space, achieving remarkable performance over existing methods. Our results demonstrate that DCOC enhances throughput by up to 37.95% while reducing optimization time by up to 42.2% across various DNN models, outperforming current state-of-the-art frameworks.
Abstract（参考訳）: 本稿では,機械学習(ML)モデル,特にディープニューラルネットワーク(DNN)モデルの様々なハードウェアプラットフォームへのマッピング効率を高めるために,適応型マルチエージェント強化学習(MARL)フレームワークを用いた新しい動的共最適化コンパイラ(DCOC)を提案する。 DCOCはMARLに3つの特別なアクター・クリティカル・エージェントを組み込んでおり、それぞれ異なる最適化面に特化している:1つはハードウェア、1つはソフトウェア用、2つはソフトウェア用である。この協力戦略により、統合ハードウェア/ソフトウェアの共同最適化アプローチが実現され、DNNデプロイメントの精度とスピードが向上する。高信頼構成に集中することにより、DCOCは検索スペースを効果的に削減し、既存の手法よりも優れた性能を実現する。以上の結果から,DCOCはスループットを最大37.95%向上させ,最適化時間を最大42.2%削減し,現在の最先端フレームワークよりも優れていた。

関連論文リスト

DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
MetaML-Pro: Cross-Stage Design Flow Automation for Efficient Deep Learning Acceleration [8.43012094714496]
本稿では、リソース制約のあるハードウェア上にディープニューラルネットワーク(DNN)をデプロイするための最適化戦略の体系化と自動化のための統一的なフレームワークを提案する。我々の新しいアプローチは、クロスステージなコ最適化と最適化検索の2つの主要な問題に対処する。実験の結果、一部のネットワークでは92%のDSPと89%のLUT使用率低下が確認された。
論文参考訳（メタデータ） (2025-02-09T11:02:06Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文参考訳（メタデータ） (2024-10-10T17:00:06Z)
Efficient Federated Learning Using Dynamic Update and Adaptive Pruning with Momentum on Shared Server Data [59.6985168241067]
フェデレートラーニング(FL)は、低トレーニング効率と限られた計算資源の2つの重要な問題に遭遇する。本稿では,サーバ上の共有不感データとエッジデバイスの分散データを活用するための新しいFLフレームワークであるFedDUMAPを提案する。提案するFLモデルであるFedDUMAPは,従来の3つの手法を組み合わせることで,ベースラインアプローチと比較して性能が大幅に向上した。
論文参考訳（メタデータ） (2024-08-11T02:59:11Z)
Combining Neural Architecture Search and Automatic Code Optimization: A Survey [0.8796261172196743]
ハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)と自動コード最適化(ACO)の2つの特長がある。 HW-NASは正確だがハードウェアフレンドリなニューラルネットワークを自動設計する。この調査では、これらの2つのテクニックをひとつのフレームワークで組み合わせた最近の研究について調査する。
論文参考訳（メタデータ） (2024-08-07T22:40:05Z)
Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。 WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文参考訳（メタデータ） (2024-07-18T02:46:06Z)
Iterative or Innovative? A Problem-Oriented Perspective for Code Optimization [81.88668100203913]
大規模言語モデル(LLM)は、幅広いプログラミングタスクを解く上で強力な能力を示している。本稿では,パフォーマンス向上に着目したコード最適化について検討する。
論文参考訳（メタデータ） (2024-06-17T16:10:10Z)
Towards Hyperparameter-Agnostic DNN Training via Dynamical System Insights [4.513581513983453]
本稿では,ディープニューラルネットワーク(DNN),ECCO-DNNに特化した一階最適化手法を提案する。本手法は, 最適変数軌道を動的システムとしてモデル化し, 軌道形状に基づいてステップサイズを適応的に選択する離散化アルゴリズムを開発する。
論文参考訳（メタデータ） (2023-10-21T03:45:13Z)
Federated Multi-Level Optimization over Decentralized Networks [55.776919718214224]
エージェントが隣人としか通信できないネットワーク上での分散マルチレベル最適化の問題について検討する。ネットワーク化されたエージェントが1つの時間スケールで異なるレベルの最適化問題を解くことができる新しいゴシップに基づく分散マルチレベル最適化アルゴリズムを提案する。提案アルゴリズムは, ネットワークサイズと線形にスケーリングし, 各種アプリケーション上での最先端性能を示す。
論文参考訳（メタデータ） (2023-10-10T00:21:10Z)
Characterizing Speed Performance of Multi-Agent Reinforcement Learning [5.313762764969945]
MARL(Multi-Agent Reinforcement Learning)は、大規模AIシステムや、スマートグリッドや監視などビッグデータアプリケーションにおいて、大きな成功を収めています。 MARLアルゴリズムの既存の進歩は、エージェント間協調のための様々なメカニズムを導入して得られる報酬の改善に焦点を当てている。我々は、MARL実装において、速度性能(すなわち、レイテンシ境界スループット)を重要な指標として分析する。
論文参考訳（メタデータ） (2023-09-13T17:26:36Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
MetaML: Automating Customizable Cross-Stage Design-Flow for Deep Learning Acceleration [5.2487252195308844]
本稿では,ディープニューラルネットワーク(DNN)ハードウェアアクセラレータのための新しい最適化フレームワークを提案する。設計フローアーキテクチャ構築のための新しい最適化と変換タスクを導入する。以上の結果から,DSP使用率92%,LUT使用率89%の大幅な削減が得られた。
論文参考訳（メタデータ） (2023-06-14T21:06:07Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
Optimization-Inspired Learning with Architecture Augmentations and Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文参考訳（メタデータ） (2020-12-10T03:24:53Z)
Distributed Multi-agent Meta Learning for Trajectory Design in Wireless Drone Networks [151.27147513363502]
本稿では,動的無線ネットワーク環境で動作するエネルギー制約型ドローン群に対する軌道設計の問題点について検討する。値ベース強化学習(VDRL)ソリューションとメタトレイン機構を提案する。
論文参考訳（メタデータ） (2020-12-06T01:30:12Z)
Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。 WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文参考訳（メタデータ） (2020-08-11T07:50:34Z)
Automated Design Space Exploration for optimised Deployment of DNN on Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文参考訳（メタデータ） (2020-06-09T11:00:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。