論文の概要: M3: Mamba-assisted Multi-Circuit Optimization via MBRL with Effective Scheduling
- arxiv url: http://arxiv.org/abs/2411.16019v1
- Date: Mon, 25 Nov 2024 00:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:19:37.128500
- Title: M3: Mamba-assisted Multi-Circuit Optimization via MBRL with Effective Scheduling
- Title(参考訳): M3: 効率的なスケジューリングによるMBRLによるマルチ回路最適化
- Authors: Youngmin Oh, Jinje Park, Seunggeun Kim, Taejin Paik, David Pan, Bosun Hwang,
- Abstract要約: M3は、Mambaアーキテクチャと効果的なスケジューリングを用いた新しいモデルベースRL(MBRL)手法である。
既存のRL法に比べて試料効率が大幅に向上する。
- 参考スコア(独自算出の注目度): 6.496667180036735
- License:
- Abstract: Recent advancements in reinforcement learning (RL) for analog circuit optimization have demonstrated significant potential for improving sample efficiency and generalization across diverse circuit topologies and target specifications. However, there are challenges such as high computational overhead, the need for bespoke models for each circuit. To address them, we propose M3, a novel Model-based RL (MBRL) method employing the Mamba architecture and effective scheduling. The Mamba architecture, known as a strong alternative to the transformer architecture, enables multi-circuit optimization with distinct parameters and target specifications. The effective scheduling strategy enhances sample efficiency by adjusting crucial MBRL training parameters. To the best of our knowledge, M3 is the first method for multi-circuit optimization by leveraging both the Mamba architecture and a MBRL with effective scheduling. As a result, it significantly improves sample efficiency compared to existing RL methods.
- Abstract(参考訳): アナログ回路最適化のための強化学習(RL)の最近の進歩は、様々な回路トポロジとターゲット仕様をまたいだサンプル効率と一般化を向上する重要な可能性を示している。
しかし、計算オーバーヘッドの増大、各回路の起動モデルの必要性といった課題がある。
そこで本研究では,Mambaアーキテクチャと効率的なスケジューリングを用いた新しいモデルベースRL(MBRL)手法であるM3を提案する。
Mambaアーキテクチャはトランスフォーマーアーキテクチャの強力な代替として知られ、異なるパラメータとターゲット仕様を持つマルチ回路最適化を可能にする。
効果的なスケジューリング戦略は、重要なMBRLトレーニングパラメータを調整することで、サンプル効率を向上させる。
我々の知る限り、M3はMambaアーキテクチャとMBRLの両方を効果的にスケジューリングすることで、マルチ回路最適化のための最初の方法である。
その結果,既存のRL法に比べて試料効率が有意に向上した。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルに基づく強化学習(MBRL)は、データ駆動による意思決定と制御のための強力なアプローチである。
オフラインデータセットで同一の動作をする様々なMDPが存在する可能性があるため、真のMDPに関する不確実性に対処することは困難である。
本研究では,BAMDPを連続状態および動作空間で解くことのできるベイズ適応モンテカルロ計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning [49.83621156017321]
SimBaは、単純さのバイアスを注入することによって、深いRLでパラメータをスケールアップするように設計されたアーキテクチャである。
SimBaでパラメータをスケールアップすることで、オフポリシー、オンポリシー、アン教師なしメソッドを含む様々なディープRLアルゴリズムのサンプル効率が一貫して改善される。
論文 参考訳(メタデータ) (2024-10-13T07:20:53Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - RL-MUL: Multiplier Design Optimization with Deep Reinforcement Learning [8.093985979285533]
強化学習に基づく乗算器設計最適化フレームワークRL-MULを提案する。
本稿では,RL-MULが全ベースライン設計を面積と遅延で支配できることを示す。
さらに、RL-MULの乗算器とベースラインアプローチを用いて、処理要素配列の面積と遅延を比較することにより、RL-MULの性能向上を検証した。
論文 参考訳(メタデータ) (2024-03-31T10:43:33Z) - Robust Model Based Reinforcement Learning Using $\mathcal{L}_1$ Adaptive Control [4.88489286130994]
本稿では,モデルベース強化学習(MBRL)アルゴリズムに対する制御理論の拡張手法を提案する。
MBRLアルゴリズムはデータを用いて遷移関数のモデルを学び、それを使って制御入力を設計する。
提案法則に従って,本手法は学習遷移関数の近似制御-アフィンモデルを生成する。
論文 参考訳(メタデータ) (2024-03-21T22:15:09Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Policy Search using Dynamic Mirror Descent MPC for Model Free Off Policy
RL [0.0]
強化学習(RL)における最近の研究は、モデルフリー(Mf)-RLアルゴリズムとモデルベース(Mb)-RLアルゴリズムを組み合わせている。
本稿では,Mb軌道最適化のためのオンライン学習と,Mf-RLの外部政治手法を統合する階層的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-23T15:16:49Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。