論文の概要: CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design
- arxiv url: http://arxiv.org/abs/2506.03474v1
- Date: Wed, 04 Jun 2025 01:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.099213
- Title: CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design
- Title(参考訳): CORE:シミュレーション誘導型ニューラルネットワーク加速器設計のための制約付きワンステップ強化学習
- Authors: Yifeng Xiao, Yurong Xu, Ning Yan, Masood Mortazavi, Pierluigi Nuzzo,
- Abstract要約: COREはシミュレーション誘導DSEのための制約対応一段階強化学習法である。
ニューラルネットワークアクセラレーターのハードウェアマッピング共同設計のためのCOREをインスタンス化する。
- 参考スコア(独自算出の注目度): 3.549422886703227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Simulation-based design space exploration (DSE) aims to efficiently optimize high-dimensional structured designs under complex constraints and expensive evaluation costs. Existing approaches, including heuristic and multi-step reinforcement learning (RL) methods, struggle to balance sampling efficiency and constraint satisfaction due to sparse, delayed feedback, and large hybrid action spaces. In this paper, we introduce CORE, a constraint-aware, one-step RL method for simulationguided DSE. In CORE, the policy agent learns to sample design configurations by defining a structured distribution over them, incorporating dependencies via a scaling-graph-based decoder, and by reward shaping to penalize invalid designs based on the feedback obtained from simulation. CORE updates the policy using a surrogate objective that compares the rewards of designs within a sampled batch, without learning a value function. This critic-free formulation enables efficient learning by encouraging the selection of higher-reward designs. We instantiate CORE for hardware-mapping co-design of neural network accelerators, demonstrating that it significantly improves sample efficiency and achieves better accelerator configurations compared to state-of-the-art baselines. Our approach is general and applicable to a broad class of discrete-continuous constrained design problems.
- Abstract(参考訳): シミュレーションに基づく設計空間探索(DSE)は、複雑な制約と高価な評価コストの下で、高次元構造設計を効率的に最適化することを目的としている。
既存のアプローチとしては、ヒューリスティック・マルチステップ強化学習(RL)法や、スパース、遅延フィードバック、大規模ハイブリッド行動空間によるサンプリング効率と制約満足度のバランスの確保に苦慮している。
本稿では,シミュレーション誘導DSEのための制約対応一段階RL法であるCOREを紹介する。
COREにおいて、ポリシーエージェントは、それらの上に構造化された分布を定義し、スケーリンググラフベースのデコーダを介して依存関係を取り込み、シミュレーションから得られたフィードバックに基づいて、不正な設計をペナルティ化する報酬形成によって、設計構成のサンプル化を学ぶ。
COREは、値関数を学習することなく、サンプルバッチ内のデザインの報酬を比較する代理目的を使用してポリシーを更新する。
この批判のない定式化は、高次設計の選定を奨励することにより、効率的な学習を可能にする。
我々は、ニューラルネットワークアクセラレーターのハードウェアマッピング共同設計のためのCOREをインスタンス化し、サンプル効率を大幅に改善し、最先端のベースラインよりも優れたアクセラレータ構成を実現することを示す。
我々のアプローチは一般的なものであり、離散連続的制約付き設計問題の幅広いクラスに適用できる。
関連論文リスト
- Efficient Stimuli Generation using Reinforcement Learning in Design Verification [2.9652396326501864]
Reinforcement Learning (RL) は、Reinforcement Learning (RL) の助けを借りて効率的な刺激を生成するために提案され、Design Under Verification (DUV) の最大コードカバレッジに到達する。
本稿では,Reinforcement Learning (RL) の助けを借りて効率的な刺激を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:23:04Z) - Diffusion Generative Inverse Design [28.04683283070957]
逆設計(英: inverse design)とは、目的関数の入力を最適化し、目的の結果を導出する問題を指す。
学習グラフニューラルネットワーク(GNN)の最近の進歩は、シミュレーション力学の正確で効率的で微分可能な推定に利用することができる。
本稿では, 分散拡散モデルを用いて, 逆設計問題の解法を効率的に行う方法を示し, より効率的な粒子サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-05T08:32:07Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Robust Topology Optimization Using Multi-Fidelity Variational Autoencoders [1.0124625066746595]
強靭なトポロジー最適化(RTO)問題は、最高の平均性能を持つ設計を特定する。
計算効率を向上するニューラルネットワーク手法を提案する。
本手法の数値解析は,Lブラケット構造のロバスト設計における単一点負荷と複数点負荷について述べる。
論文 参考訳(メタデータ) (2021-07-19T20:40:51Z) - Analog Circuit Design with Dyna-Style Reinforcement Learning [12.232323973906773]
本稿では,アナログ回路設計における学習に基づくアプローチを提案する。
まず、ニューラルネットワークによって近似された性能の代理モデル(英語版)を学習し、必要なシミュレーション数の削減を図る。
第2に、制約を満たす多様なソリューション空間を探索するためにポリシージェネレータを使用し、その結果、ポリシーをトレーニングするために20,000の回路シミュレーションで適用されたモデルフリー手法と比較して、DynaOptは、わずか500のシミュレーションでスクラッチから学習することで、さらに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-11-16T00:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。