論文の概要: RL-MUL: Multiplier Design Optimization with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.00639v1
- Date: Sun, 31 Mar 2024 10:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-04 02:30:41.738935
- Title: RL-MUL: Multiplier Design Optimization with Deep Reinforcement Learning
- Title(参考訳): RL-MUL:深層強化学習を用いた乗算器設計最適化
- Authors: Dongsheng Zuo, Jiadong Zhu, Yikang Ouyang, Yuzhe Ma,
- Abstract要約: 強化学習に基づく乗算器設計最適化フレームワークRL-MULを提案する。
本稿では,RL-MULが全ベースライン設計を面積と遅延で支配できることを示す。
さらに、RL-MULの乗算器とベースラインアプローチを用いて、処理要素配列の面積と遅延を比較することにより、RL-MULの性能向上を検証した。
- 参考スコア(独自算出の注目度): 8.093985979285533
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multiplication is a fundamental operation in many applications, and multipliers are widely adopted in various circuits. However, optimizing multipliers is challenging and non-trivial due to the huge design space. In this paper, we propose RL-MUL, a multiplier design optimization framework based on reinforcement learning. Specifically, we utilize matrix and tensor representations for the compressor tree of a multiplier, based on which the convolutional neural networks can be seamlessly incorporated as the agent network. The agent can learn to optimize the multiplier structure based on a Pareto-driven reward which is customized to accommodate the trade-off between area and delay. Additionally, the capability of RL-MUL is extended to optimize the fused multiply-accumulator (MAC) designs. Experiments are conducted on different bit widths of multipliers. The results demonstrate that the multipliers produced by RL-MUL can dominate all baseline designs in terms of area and delay. The performance gain of RL-MUL is further validated by comparing the area and delay of processing element arrays using multipliers from RL-MUL and baseline approaches.
- Abstract(参考訳): 乗算は多くのアプリケーションにおいて基本的な演算であり、乗算器は様々な回路で広く採用されている。
しかし、巨大な設計空間のため、乗算器の最適化は困難であり、非自明である。
本稿では,強化学習に基づく乗算器設計最適化フレームワークRL-MULを提案する。
具体的には,畳み込みニューラルネットワークをエージェントネットワークとしてシームレスに組み込むことが可能な乗算器の圧縮木に対して,行列とテンソル表現を利用する。
エージェントは、エリアと遅延の間のトレードオフに対応するようにカスタマイズされたPareto駆動の報酬に基づいて、乗算器構造を最適化することを学ぶことができる。
さらに、RL-MULの機能は、融合乗算器(MAC)の設計を最適化するために拡張される。
乗算器の異なるビット幅で実験を行う。
その結果, RL-MUL が生成する乗算器は, 面積, 遅延の点で, ベースライン設計を全て支配できることがわかった。
さらに、RL-MULの乗算器とベースラインアプローチを用いて、処理要素配列の面積と遅延を比較することにより、RL-MULの性能向上を検証した。
関連論文リスト
- DOMAC: Differentiable Optimization for High-Speed Multipliers and Multiply-Accumulators [25.876084896293058]
DOMACは、特定の技術ノードで乗算器とMACを設計するための微分可能な最適化を利用する新しいアプローチである。
この洞察に基づいて、DOMACは、異なるタイミングと領域の目的を取り入れることで、離散最適化の課題を継続的問題に再構成する。
論文 参考訳(メタデータ) (2025-03-31T10:49:05Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - M3: Mamba-assisted Multi-Circuit Optimization via MBRL with Effective Scheduling [6.496667180036735]
M3は、Mambaアーキテクチャと効果的なスケジューリングを用いた新しいモデルベースRL(MBRL)手法である。
既存のRL法に比べて試料効率が大幅に向上する。
論文 参考訳(メタデータ) (2024-11-25T00:30:49Z) - A Hassle-free Algorithm for Private Learning in Practice: Don't Use Tree Aggregation, Use BLTs [4.736297244235246]
本稿では,最近導入されたBuffered Linear Toeplitz (BLT) メカニズムをマルチ参加シナリオに拡張する。
我々のBLT-DP-FTRLは、木集約の使いやすさを維持しつつ、実用性とプライバシの観点から行列の分解にほぼ一致する。
論文 参考訳(メタデータ) (2024-08-16T17:52:22Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。
本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文 参考訳(メタデータ) (2023-10-06T22:57:25Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Generalized Activation via Multivariate Projection [46.837481855573145]
活性化関数はニューラルネットワークに非線形性を導入するのに不可欠である。
我々は、ReLU を R から非負半直線 R+ への射影とみなす。
一般化された射影作用素でReLUを2次錐(SOC)射影のような凸錐に置換することでReLUを拡張する。
論文 参考訳(メタデータ) (2023-09-29T12:44:27Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Low-Latency Online Multiplier with Reduced Activities and Minimized
Interconnect for Inner Product Arrays [0.8078491757252693]
本稿では,オンライン算術や左から右への算術に基づく低レイテンシ乗算器を提案する。
オンライン算術は、データ依存に関係なく連続した操作を重複させることができる。
オンラインアルゴリズムのシリアルな性質と、アクティブスライスの段階的な増減は、相互接続と信号のアクティビティを最小化する。
論文 参考訳(メタデータ) (2023-04-06T01:22:27Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Energy Efficiency Maximization in IRS-Aided Cell-Free Massive MIMO
System [2.9081408997650375]
本稿では、入射点におけるビームフォーミングとIRSにおける位相シフトを共同最適化してエネルギー効率(EE)を最大化する、インテリジェント反射面(IRS)を用いたセルレス大規模マルチインプット多重出力システムについて考察する。
EE問題を解くために,2次変換とラグランジアン双対変換を用いて最適ビームフォーミングと位相シフトを求める反復最適化アルゴリズムを提案する。
さらに,共同ビームフォーミングと位相シフト設計のための深層学習に基づくアプローチを提案する。具体的には,教師なし学習方式を用いて2段階の深層ニューラルネットワークをオフラインでトレーニングし,オンラインに展開する。
論文 参考訳(メタデータ) (2022-12-24T14:58:15Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。
カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える
我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-07T08:05:13Z) - LIBRA: Enabling Workload-aware Multi-dimensional Network Topology Optimization for Distributed Training of Large AI Models [6.980277221943408]
我々は,機械学習システムにおける多次元ネットワークの設計を,ネットワーク全体の帯域幅を向上させるためのコスト効率のメカニズムとして動機付けている。
多次元ファブリックアーキテクチャの最適化に特化したフレームワークであるLIBRAを紹介する。
論文 参考訳(メタデータ) (2021-09-24T06:22:28Z) - Machine Learning Framework for Quantum Sampling of Highly-Constrained,
Continuous Optimization Problems [101.18253437732933]
本研究では,連続空間の逆設計問題を,制約のないバイナリ最適化問題にマッピングする,汎用的な機械学習ベースのフレームワークを開発する。
本研究では, 熱発光トポロジを熱光応用に最適化し, (ii) 高効率ビームステアリングのための拡散メタグレーティングを行うことにより, 2つの逆設計問題に対するフレームワークの性能を示す。
論文 参考訳(メタデータ) (2021-05-06T02:22:23Z) - Decomposability and Parallel Computation of Multi-Agent LQR [19.710361049812608]
連続時間線形MASにおける線形レギュレータ(LQR)設計のための並列RLスキームを提案する。
我々は、MAS が均質であれば、この分解は閉ループ最適性を保持することを示す。
提案手法は,LQRコストの累積価値を損なうことなく,学習の大幅な高速化を保証できる。
論文 参考訳(メタデータ) (2020-10-16T20:15:39Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。