論文の概要: Guided Policy Search Based Control of a High Dimensional Advanced
Manufacturing Process
- arxiv url: http://arxiv.org/abs/2009.05838v1
- Date: Sat, 12 Sep 2020 17:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 08:23:35.382269
- Title: Guided Policy Search Based Control of a High Dimensional Advanced
Manufacturing Process
- Title(参考訳): 高次元高度製造プロセスの誘導政策探索に基づく制御
- Authors: Amit Surana, Kishore Reddy, Matthew Siopis
- Abstract要約: 本稿では,加法製造プロセスにおける高次元最適制御問題に対して,GPSに基づく強化学習フレームワークを適用した。
沈着過程の現実的なシミュレーションモデルを用いて,GPSを用いたニューラルネットワークポリシのトレーニングを行う。
トレーニングされたポリシと堆積プロファイルのその場測定に基づくクローズドループ制御を実験的に検証し,有望な性能を示す。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we apply guided policy search (GPS) based reinforcement
learning framework for a high dimensional optimal control problem arising in an
additive manufacturing process. The problem comprises of controlling the
process parameters so that layer-wise deposition of material leads to desired
geometric characteristics of the resulting part surface while minimizing the
material deposited. A realistic simulation model of the deposition process
along with carefully selected set of guiding distributions generated based on
iterative Linear Quadratic Regulator is used to train a neural network policy
using GPS. A closed loop control based on the trained policy and in-situ
measurement of the deposition profile is tested experimentally, and shows
promising performance.
- Abstract(参考訳): 本稿では,加法製造プロセスにおける高次元最適制御問題に対して,GPSに基づく強化学習フレームワークを適用した。
本発明の課題は, プロセスパラメータを制御することにより, 積層した材料を最小化しつつ, 材料表面の幾何学的特性を所望する。
繰り返し線形二次レギュレータをベースとしたガイド分布の慎重に選択されたセットとともに堆積過程の現実的なシミュレーションモデルを用いて,GPSを用いたニューラルネットワークポリシのトレーニングを行う。
トレーニングされたポリシと堆積プロファイルのその場測定に基づく閉ループ制御を実験的に検証し,有望な性能を示す。
関連論文リスト
- Continual Model-based Reinforcement Learning for Data Efficient Wireless Network Optimisation [73.04087903322237]
制御ポリシの継続強化学習としてスループット最適化を定式化する。
シミュレーションの結果,提案システムでは,エンド・ツー・エンドのデプロイメントのリードタイムを2倍に短縮できることがわかった。
論文 参考訳(メタデータ) (2024-04-30T11:23:31Z) - Tensor-based process control and monitoring for semiconductor
manufacturing with unstable disturbances [13.114681056884832]
本稿では,高次元画像ベースオーバーレイ誤差の複雑な構造に対するプロセス制御とモニタリング手法を提案する。
提案手法は,制限された制御レシピを用いてオーバーレイ誤差を低減することを目的としている。
論文 参考訳(メタデータ) (2024-01-31T03:35:08Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Regret Analysis of Online Gradient Descent-based Iterative Learning
Control with Model Mismatch [4.922572106422331]
不正確な勾配情報を用いたオンライン勾配差に基づくスキームの性能を解析した。
本手法の基本的限界と適応機構との統合について検討した。
論文 参考訳(メタデータ) (2022-04-10T16:35:27Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Optimal Control-Based Baseline for Guided Exploration in Policy Gradient Methods [8.718494948845711]
本稿では, 深層強化学習におけるポリシー勾配法に対して, 最適制御ベースライン関数を提案する。
我々は,ロボット学習タスクのベースラインを検証し,ガイド付き探索におけるその効果を示す。
論文 参考訳(メタデータ) (2020-11-04T00:11:56Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Single-step deep reinforcement learning for open-loop control of laminar
and turbulent flows [0.0]
本研究は,流体力学系の最適化と制御を支援するための深部強化学習(DRL)技術の能力を評価する。
原型ポリシー最適化(PPO)アルゴリズムの新たな"退化"バージョンを組み合わせることで、学習エピソード当たり1回だけシステムを最適化するニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-06-04T16:11:26Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。