Fugu-MT 論文翻訳(概要): RL-MUL 2.0: Multiplier Design Optimization with Parallel Deep Reinforcement Learning and Space Reduction

論文の概要: RL-MUL 2.0: Multiplier Design Optimization with Parallel Deep Reinforcement Learning and Space Reduction

arxiv url: http://arxiv.org/abs/2404.00639v2
Date: Fri, 27 Dec 2024 13:26:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:04.717275
Title: RL-MUL 2.0: Multiplier Design Optimization with Parallel Deep Reinforcement Learning and Space Reduction
Title（参考訳）: RL-MUL 2.0:並列深部強化学習と空間削減による乗算器設計最適化
Authors: Dongsheng Zuo, Jiadong Zhu, Yikang Ouyang, Yuzhe Ma,
Abstract要約: 強化学習に基づく乗算器設計最適化フレームワークを提案する。行列とテンソル表現を乗算器の圧縮木に用いて,畳み込みニューラルネットワークをエージェントネットワークとしてシームレスに統合する。異なるビット幅の乗算器を用いた実験により, 提案手法により生成した乗算器は, 面積, パワー, 遅延の点で, ベースライン全体の設計よりも優れていた。
参考スコア（独自算出の注目度）: 8.093985979285533
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multiplication is a fundamental operation in many applications, and multipliers are widely adopted in various circuits. However, optimizing multipliers is challenging due to the extensive design space. In this paper, we propose a multiplier design optimization framework based on reinforcement learning. We utilize matrix and tensor representations for the compressor tree of a multiplier, enabling seamless integration of convolutional neural networks as the agent network. The agent optimizes the multiplier structure using a Pareto-driven reward customized to balance area and delay. Furthermore, we enhance the original framework with parallel reinforcement learning and design space pruning techniques and extend its capability to optimize fused multiply-accumulate (MAC) designs. Experiments conducted on different bit widths of multipliers demonstrate that multipliers produced by our approach outperform all baseline designs in terms of area, power, and delay. The performance gain is further validated by comparing the area, power, and delay of processing element arrays using multipliers from our approach and baseline approaches.
Abstract（参考訳）: 乗算は多くのアプリケーションにおいて基本的な演算であり、乗算器は様々な回路で広く採用されている。しかし、設計空間が広いため、乗算器の最適化は困難である。本稿では,強化学習に基づく乗算器設計最適化フレームワークを提案する。行列とテンソル表現を乗算器の圧縮木に用いて,畳み込みニューラルネットワークをエージェントネットワークとしてシームレスに統合する。エージェントは、エリアと遅延のバランスをとるようにカスタマイズされたパレート駆動の報酬を使用して乗算器構造を最適化する。さらに、並列強化学習と設計空間の刈り取り技術により、元のフレームワークを強化し、融合多重累積(MAC)設計を最適化する能力を拡張した。異なるビット幅の乗算器を用いた実験により, 提案手法により生成した乗算器は, 面積, パワー, 遅延の点で, ベースライン全体の設計よりも優れていた。提案手法とベースラインアプローチの乗算器を用いて, 処理要素列の面積, 出力, 遅延を比較検討することにより, 性能向上を更に検証する。

関連論文リスト

DOMAC: Differentiable Optimization for High-Speed Multipliers and Multiply-Accumulators [25.876084896293058]
DOMACは、特定の技術ノードで乗算器とMACを設計するための微分可能な最適化を利用する新しいアプローチである。この洞察に基づいて、DOMACは、異なるタイミングと領域の目的を取り入れることで、離散最適化の課題を継続的問題に再構成する。
論文参考訳（メタデータ） (2025-03-31T10:49:05Z)
Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文参考訳（メタデータ） (2025-02-25T19:47:20Z)
M3: Mamba-assisted Multi-Circuit Optimization via MBRL with Effective Scheduling [6.496667180036735]
M3は、Mambaアーキテクチャと効果的なスケジューリングを用いた新しいモデルベースRL(MBRL)手法である。既存のRL法に比べて試料効率が大幅に向上する。
論文参考訳（メタデータ） (2024-11-25T00:30:49Z)
A Hassle-free Algorithm for Private Learning in Practice: Don't Use Tree Aggregation, Use BLTs [4.736297244235246]
本稿では,最近導入されたBuffered Linear Toeplitz (BLT) メカニズムをマルチ参加シナリオに拡張する。我々のBLT-DP-FTRLは、木集約の使いやすさを維持しつつ、実用性とプライバシの観点から行列の分解にほぼ一致する。
論文参考訳（メタデータ） (2024-08-16T17:52:22Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文参考訳（メタデータ） (2024-06-10T13:25:43Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文参考訳（メタデータ） (2023-10-06T22:57:25Z)
An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-30T15:57:14Z)
Generalized Activation via Multivariate Projection [46.837481855573145]
活性化関数はニューラルネットワークに非線形性を導入するのに不可欠である。我々は、ReLU を R から非負半直線 R+ への射影とみなす。一般化された射影作用素でReLUを2次錐(SOC)射影のような凸錐に置換することでReLUを拡張する。
論文参考訳（メタデータ） (2023-09-29T12:44:27Z)
Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文参考訳（メタデータ） (2023-05-24T16:08:55Z)
Low-Latency Online Multiplier with Reduced Activities and Minimized Interconnect for Inner Product Arrays [0.8078491757252693]
本稿では,オンライン算術や左から右への算術に基づく低レイテンシ乗算器を提案する。オンライン算術は、データ依存に関係なく連続した操作を重複させることができる。オンラインアルゴリズムのシリアルな性質と、アクティブスライスの段階的な増減は、相互接続と信号のアクティビティを最小化する。
論文参考訳（メタデータ） (2023-04-06T01:22:27Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
Energy Efficiency Maximization in IRS-Aided Cell-Free Massive MIMO System [2.9081408997650375]
本稿では、入射点におけるビームフォーミングとIRSにおける位相シフトを共同最適化してエネルギー効率(EE)を最大化する、インテリジェント反射面(IRS)を用いたセルレス大規模マルチインプット多重出力システムについて考察する。 EE問題を解くために,2次変換とラグランジアン双対変換を用いて最適ビームフォーミングと位相シフトを求める反復最適化アルゴリズムを提案する。さらに,共同ビームフォーミングと位相シフト設計のための深層学習に基づくアプローチを提案する。具体的には,教師なし学習方式を用いて2段階の深層ニューラルネットワークをオフラインでトレーニングし,オンラインに展開する。
論文参考訳（メタデータ） (2022-12-24T14:58:15Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文参考訳（メタデータ） (2022-11-07T08:05:13Z)
LIBRA: Enabling Workload-aware Multi-dimensional Network Topology Optimization for Distributed Training of Large AI Models [6.980277221943408]
我々は,機械学習システムにおける多次元ネットワークの設計を,ネットワーク全体の帯域幅を向上させるためのコスト効率のメカニズムとして動機付けている。多次元ファブリックアーキテクチャの最適化に特化したフレームワークであるLIBRAを紹介する。
論文参考訳（メタデータ） (2021-09-24T06:22:28Z)
Machine Learning Framework for Quantum Sampling of Highly-Constrained, Continuous Optimization Problems [101.18253437732933]
本研究では,連続空間の逆設計問題を,制約のないバイナリ最適化問題にマッピングする,汎用的な機械学習ベースのフレームワークを開発する。本研究では, 熱発光トポロジを熱光応用に最適化し, (ii) 高効率ビームステアリングのための拡散メタグレーティングを行うことにより, 2つの逆設計問題に対するフレームワークの性能を示す。
論文参考訳（メタデータ） (2021-05-06T02:22:23Z)
Decomposability and Parallel Computation of Multi-Agent LQR [19.710361049812608]
連続時間線形MASにおける線形レギュレータ(LQR)設計のための並列RLスキームを提案する。我々は、MAS が均質であれば、この分解は閉ループ最適性を保持することを示す。提案手法は,LQRコストの累積価値を損なうことなく,学習の大幅な高速化を保証できる。
論文参考訳（メタデータ） (2020-10-16T20:15:39Z)
Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文参考訳（メタデータ） (2020-06-15T02:57:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。