論文の概要: Reinforcement Learning Policy as Macro Regulator Rather than Macro Placer
- arxiv url: http://arxiv.org/abs/2412.07167v1
- Date: Tue, 10 Dec 2024 04:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:44.115880
- Title: Reinforcement Learning Policy as Macro Regulator Rather than Macro Placer
- Title(参考訳): マクロプレーサーではなくマクロレギュレータとしての強化学習政策
- Authors: Ke Xue, Ruo-Tong Chen, Xi Lin, Yunqi Shi, Shixiong Kai, Siyuan Xu, Chao Qian,
- Abstract要約: 強化学習は 配置品質向上の 有望な手法として現れました
現在のRLベースの配置法では、長時間のトレーニング時間、一般化能力の低下、PPA結果の保証が困難である。
本稿では,RLを改良段階に利用し,既存の配置レイアウトの調整方法を学習する手法を提案する。
我々は,ISPD 2005 と ICCAD 2015 ベンチマークを用いて,提案手法の広帯域半周波線長と正則性を比較した。
- 参考スコア(独自算出の注目度): 22.46061028295081
- License:
- Abstract: In modern chip design, placement aims at placing millions of circuit modules, which is an essential step that significantly influences power, performance, and area (PPA) metrics. Recently, reinforcement learning (RL) has emerged as a promising technique for improving placement quality, especially macro placement. However, current RL-based placement methods suffer from long training times, low generalization ability, and inability to guarantee PPA results. A key issue lies in the problem formulation, i.e., using RL to place from scratch, which results in limits useful information and inaccurate rewards during the training process. In this work, we propose an approach that utilizes RL for the refinement stage, which allows the RL policy to learn how to adjust existing placement layouts, thereby receiving sufficient information for the policy to act and obtain relatively dense and precise rewards. Additionally, we introduce the concept of regularity during training, which is considered an important metric in the chip design industry but is often overlooked in current RL placement methods. We evaluate our approach on the ISPD 2005 and ICCAD 2015 benchmark, comparing the global half-perimeter wirelength and regularity of our proposed method against several competitive approaches. Besides, we test the PPA performance using commercial software, showing that RL as a regulator can achieve significant PPA improvements. Our RL regulator can fine-tune placements from any method and enhance their quality. Our work opens up new possibilities for the application of RL in placement, providing a more effective and efficient approach to optimizing chip design. Our code is available at \url{https://github.com/lamda-bbo/macro-regulator}.
- Abstract(参考訳): 現代のチップ設計において、配置は数百万の回路モジュールを配置することを目的としており、これは電力、性能、面積(PPA)メトリクスに大きな影響を与える重要なステップである。
近年, 配置品質, 特にマクロ配置を改善するための有望な手法として, 強化学習 (RL) が出現している。
しかし、現在のRLベースの配置法では、長時間のトレーニング時間、一般化能力の低下、PPA結果の保証が困難である。
重要な問題は、問題定式化、すなわち、RLをスクラッチから配置することであり、結果として有用な情報が制限され、トレーニングプロセス中に不正確な報酬が発生する。
本研究では,RLを改良段階に利用し,RLポリシーが既存の配置レイアウトの調整方法を学ぶことができるアプローチを提案する。
さらに、チップ設計業界において重要な指標であると同時に、現在のRL配置法では見過ごされがちな、トレーニング中の規則性の概念についても紹介する。
我々は,ISPD 2005 と ICCAD 2015 ベンチマークを用いて,提案手法の広帯域半周波線長と正則性を比較した。
さらに,商用ソフトウェアを用いてPPA性能を検証し,RLをレギュレータとして有意なPPA改善を実現することを示す。
我々のRLレギュレータはどんな方法でも微調整できるし、品質も向上できる。
我々の研究は、チップ設計を最適化するためのより効率的かつ効率的なアプローチを提供するために、RLを配置する新たな可能性を開く。
私たちのコードは \url{https://github.com/lamda-bbo/macro-regulator} で利用可能です。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - User-Oriented Robust Reinforcement Learning [25.02456730639135]
政策学習のための新しいユーザ指向ロバストRL(UOR-RL)フレームワークを提案する。
ユーザの好みに応じて環境に異なる重みを割り当てる新しいユーザ指向ロバストネス(UOR)メトリックをRLに対して定義する。
UOR-RLトレーニングアルゴリズムは, 環境分布に関する不正確な知識や全く知識がなくても, ほぼ最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2022-02-15T10:33:55Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - A Validation Tool for Designing Reinforcement Learning Environments [0.0]
本研究では, マルコフを用いた特徴解析手法を提案し, MDPが適切に定式化されているか検証する。
我々は,RLの適用に適したMDPには,行動に敏感かつ報奨の予測が可能な,一連の状態特徴が含まれるべきだと考えている。
論文 参考訳(メタデータ) (2021-12-10T13:28:08Z) - Towards Standardizing Reinforcement Learning Approaches for Stochastic
Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。
既存の研究は、コードが利用できない複雑なシミュレーションに依存している。
から選ぶべきRLの設計の広大な配列があります。
モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文 参考訳(メタデータ) (2021-04-16T16:07:10Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。