論文の概要: Theta-Resonance: A Single-Step Reinforcement Learning Method for Design
Space Exploration
- arxiv url: http://arxiv.org/abs/2211.02052v1
- Date: Thu, 3 Nov 2022 16:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:09:38.981979
- Title: Theta-Resonance: A Single-Step Reinforcement Learning Method for Design
Space Exploration
- Title(参考訳): Theta-Resonance:デザイン空間探索のための単一ステップ強化学習法
- Authors: Masood S. Mortazavi, Tiancheng Qin, Ning Yan
- Abstract要約: Theta-Resonanceを用いて、より最適なサンプルを生成するインテリジェントエージェントを訓練する。
我々は、政策ネットワークを更新するために、既存の政策勾配アルゴリズムを深層強化学習(D-RL)に特化している。
分類設計空間のみを提示するが、連続かつ混合した連続離散設計空間を探索するためにテータ共振器の使い方も概説する。
- 参考スコア(独自算出の注目度): 10.184056098238766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an environment (e.g., a simulator) for evaluating samples in a
specified design space and a set of weighted evaluation metrics -- one can use
Theta-Resonance, a single-step Markov Decision Process (MDP), to train an
intelligent agent producing progressively more optimal samples. In
Theta-Resonance, a neural network consumes a constant input tensor and produces
a policy as a set of conditional probability density functions (PDFs) for
sampling each design dimension. We specialize existing policy gradient
algorithms in deep reinforcement learning (D-RL) in order to use evaluation
feedback (in terms of cost, penalty or reward) to update our policy network
with robust algorithmic stability and minimal design evaluations. We study
multiple neural architectures (for our policy network) within the context of a
simple SoC design space and propose a method of constructing synthetic space
exploration problems to compare and improve design space exploration (DSE)
algorithms. Although we only present categorical design spaces, we also outline
how to use Theta-Resonance in order to explore continuous and mixed
continuous-discrete design spaces.
- Abstract(参考訳): 特定の設計空間でサンプルを評価する環境(例えばシミュレータ)と重み付け評価メトリクスのセットが与えられ、シングルステップマルコフ決定プロセス(mdp)であるtheta-resonanceを使用して、より最適なサンプルを生成するインテリジェントエージェントを訓練することができる。
Theta-Resonanceでは、ニューラルネットワークが一定入力テンソルを消費し、各設計次元をサンプリングするための条件確率密度関数(PDF)のセットとしてポリシーを生成する。
既存のポリシー勾配アルゴリズムを深層強化学習(d-rl)に特化し,評価フィードバック(コスト,ペナルティ,報酬の観点から)を用いて,堅牢なアルゴリズム安定性と最小限の設計評価でポリシーネットワークを更新する。
簡単なSoC設計空間のコンテキスト内で複数のニューラルアーキテクチャ(ポリシーネットワーク)について検討し、設計空間探索(DSE)アルゴリズムの比較と改善のための合成空間探索問題を構築する方法を提案する。
分類的設計空間のみを提示するが、連続的および混合的連続離散設計空間を探索するためにtheta-resonanceの使い方も概説する。
関連論文リスト
- Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - RID-Noise: Towards Robust Inverse Design under Noisy Environments [30.58112077143225]
条件付き可逆ニューラルネットワーク(cINN)を学習するための雑音下でのロバスト逆設計(RID-Noise)を提案する。
本稿では,前向きニューラルネットワークの予測誤差を用いて,設計パラメータのロバスト性をその予測可能性によって推定する。
実験の結果から, RID-Noiseがデータから分布とロバスト性を学ぶことによって, どのように機能するかを明確にする。
論文 参考訳(メタデータ) (2021-12-07T06:32:27Z) - Bayesian Sequential Optimal Experimental Design for Nonlinear Models
Using Policy Gradient Reinforcement Learning [0.0]
この逐次最適設計(sOED)問題を有限水平部分観測可能なマルコフ決定過程(POMDP)として定式化する。
連続確率変数、一般のガウス的非ガウス的後部モデル、高価な非線形フォワードモデルに対応するために構築されている。
我々は、強化学習から政策勾配(PG)法を用いてsOEDポリシーを数値的に解き、sOEDのPG式を導出し、証明する。
PG-sOED法全体を線形ガウスベンチマークで検証し, 汚染源逆転問題により, バッチおよびグレディ設計よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-28T17:47:31Z) - Robust Topology Optimization Using Multi-Fidelity Variational Autoencoders [1.0124625066746595]
強靭なトポロジー最適化(RTO)問題は、最高の平均性能を持つ設計を特定する。
計算効率を向上するニューラルネットワーク手法を提案する。
本手法の数値解析は,Lブラケット構造のロバスト設計における単一点負荷と複数点負荷について述べる。
論文 参考訳(メタデータ) (2021-07-19T20:40:51Z) - An AI-Assisted Design Method for Topology Optimization Without
Pre-Optimized Training Data [68.8204255655161]
トポロジ最適化に基づくAI支援設計手法を提示し、最適化された設計を直接的に得ることができる。
設計は、境界条件と入力データとしての充填度に基づいて、人工ニューラルネットワーク、予測器によって提供される。
論文 参考訳(メタデータ) (2020-12-11T14:33:27Z) - Sinkhorn Natural Gradient for Generative Models [125.89871274202439]
本研究では,シンクホーンの発散による確率空間上の最も急降下法として機能するシンクホーン自然勾配(SiNG)アルゴリズムを提案する。
本稿では,SiNG の主要成分であるシンクホーン情報行列 (SIM) が明示的な表現を持ち,対数的スケールの複雑さを正確に評価できることを示す。
本実験では,SiNGと最先端のSGD型解法を定量的に比較し,その有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-11-09T02:51:17Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Learning a Probabilistic Strategy for Computational Imaging Sensor
Selection [16.553234762932938]
本稿では,センサ設計のための確率的センササンプリング戦略を学習する物理制約付き,完全微分可能なオートエンコーダを提案する。
提案手法は,センサ選択の相関関係を2次完全接続型Isingモデルとして特徴付ける,システムに好まれるサンプリング分布を学習する。
論文 参考訳(メタデータ) (2020-03-23T17:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。