論文の概要: RL-MUL: Multiplier Design Optimization with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.00639v1
- Date: Sun, 31 Mar 2024 10:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:30:41.738935
- Title: RL-MUL: Multiplier Design Optimization with Deep Reinforcement Learning
- Title(参考訳): RL-MUL:深層強化学習を用いた乗算器設計最適化
- Authors: Dongsheng Zuo, Jiadong Zhu, Yikang Ouyang, Yuzhe Ma,
- Abstract要約: 強化学習に基づく乗算器設計最適化フレームワークRL-MULを提案する。
本稿では,RL-MULが全ベースライン設計を面積と遅延で支配できることを示す。
さらに、RL-MULの乗算器とベースラインアプローチを用いて、処理要素配列の面積と遅延を比較することにより、RL-MULの性能向上を検証した。
- 参考スコア(独自算出の注目度): 8.093985979285533
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multiplication is a fundamental operation in many applications, and multipliers are widely adopted in various circuits. However, optimizing multipliers is challenging and non-trivial due to the huge design space. In this paper, we propose RL-MUL, a multiplier design optimization framework based on reinforcement learning. Specifically, we utilize matrix and tensor representations for the compressor tree of a multiplier, based on which the convolutional neural networks can be seamlessly incorporated as the agent network. The agent can learn to optimize the multiplier structure based on a Pareto-driven reward which is customized to accommodate the trade-off between area and delay. Additionally, the capability of RL-MUL is extended to optimize the fused multiply-accumulator (MAC) designs. Experiments are conducted on different bit widths of multipliers. The results demonstrate that the multipliers produced by RL-MUL can dominate all baseline designs in terms of area and delay. The performance gain of RL-MUL is further validated by comparing the area and delay of processing element arrays using multipliers from RL-MUL and baseline approaches.
- Abstract(参考訳): 乗算は多くのアプリケーションにおいて基本的な演算であり、乗算器は様々な回路で広く採用されている。
しかし、巨大な設計空間のため、乗算器の最適化は困難であり、非自明である。
本稿では,強化学習に基づく乗算器設計最適化フレームワークRL-MULを提案する。
具体的には,畳み込みニューラルネットワークをエージェントネットワークとしてシームレスに組み込むことが可能な乗算器の圧縮木に対して,行列とテンソル表現を利用する。
エージェントは、エリアと遅延の間のトレードオフに対応するようにカスタマイズされたPareto駆動の報酬に基づいて、乗算器構造を最適化することを学ぶことができる。
さらに、RL-MULの機能は、融合乗算器(MAC)の設計を最適化するために拡張される。
乗算器の異なるビット幅で実験を行う。
その結果, RL-MUL が生成する乗算器は, 面積, 遅延の点で, ベースライン設計を全て支配できることがわかった。
さらに、RL-MULの乗算器とベースラインアプローチを用いて、処理要素配列の面積と遅延を比較することにより、RL-MULの性能向上を検証した。
関連論文リスト
- M3: Mamba-assisted Multi-Circuit Optimization via MBRL with Effective Scheduling [6.496667180036735]
M3は、Mambaアーキテクチャと効果的なスケジューリングを用いた新しいモデルベースRL(MBRL)手法である。
既存のRL法に比べて試料効率が大幅に向上する。
論文 参考訳(メタデータ) (2024-11-25T00:30:49Z) - A Hassle-free Algorithm for Private Learning in Practice: Don't Use Tree Aggregation, Use BLTs [4.736297244235246]
本稿では,最近導入されたBuffered Linear Toeplitz (BLT) メカニズムをマルチ参加シナリオに拡張する。
我々のBLT-DP-FTRLは、木集約の使いやすさを維持しつつ、実用性とプライバシの観点から行列の分解にほぼ一致する。
論文 参考訳(メタデータ) (2024-08-16T17:52:22Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Low-Latency Online Multiplier with Reduced Activities and Minimized
Interconnect for Inner Product Arrays [0.8078491757252693]
本稿では,オンライン算術や左から右への算術に基づく低レイテンシ乗算器を提案する。
オンライン算術は、データ依存に関係なく連続した操作を重複させることができる。
オンラインアルゴリズムのシリアルな性質と、アクティブスライスの段階的な増減は、相互接続と信号のアクティビティを最小化する。
論文 参考訳(メタデータ) (2023-04-06T01:22:27Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。
カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える
我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-07T08:05:13Z) - Decomposability and Parallel Computation of Multi-Agent LQR [19.710361049812608]
連続時間線形MASにおける線形レギュレータ(LQR)設計のための並列RLスキームを提案する。
我々は、MAS が均質であれば、この分解は閉ループ最適性を保持することを示す。
提案手法は,LQRコストの累積価値を損なうことなく,学習の大幅な高速化を保証できる。
論文 参考訳(メタデータ) (2020-10-16T20:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。