論文の概要: Autotuning PID control using Actor-Critic Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.00013v1
- Date: Tue, 29 Nov 2022 11:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:18:49.599149
- Title: Autotuning PID control using Actor-Critic Deep Reinforcement Learning
- Title(参考訳): Actor-Critic Deep Reinforcement Learning を用いたPID自動制御
- Authors: Vivien van Veldhuizen
- Abstract要約: モデルがリンゴの位置に基づいてPIDパラメータを予測できるかどうかを調べる。
最初のテストでは、モデルがその予測をリンゴの場所に適応できることが示され、適応的なコントローラになっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work is an exploratory research concerned with determining in what way
reinforcement learning can be used to predict optimal PID parameters for a
robot designed for apple harvest. To study this, an algorithm called Advantage
Actor Critic (A2C) is implemented on a simulated robot arm. The simulation
primarily relies on the ROS framework. Experiments for tuning one actuator at a
time and two actuators a a time are run, which both show that the model is able
to predict PID gains that perform better than the set baseline. In addition, it
is studied if the model is able to predict PID parameters based on where an
apple is located. Initial tests show that the model is indeed able to adapt its
predictions to apple locations, making it an adaptive controller.
- Abstract(参考訳): この研究は、リンゴ収穫用に設計されたロボットに対して、強化学習を用いて最適なPIDパラメータを予測する方法についての探索研究である。
これを研究するために、シミュレーションロボットアームにAdvantage Actor Critic (A2C)と呼ばれるアルゴリズムを実装した。
シミュレーションは主にROSフレームワークに依存している。
1回に1つのアクチュエータをチューニングする実験と1回に2つのアクチュエータを動作させることにより、モデルがセットベースラインよりも優れたPIDゲインを予測できることを示す。
さらに、リンゴの位置に基づいて、モデルがPIDパラメータを予測できるかどうかについても検討した。
最初のテストでは、モデルがその予測をリンゴの場所に適応できることが示され、適応的なコントローラになっている。
関連論文リスト
- Modelling, Positioning, and Deep Reinforcement Learning Path Tracking
Control of Scaled Robotic Vehicles: Design and Experimental Validation [3.807917169053206]
スケールされたロボットカーは通常、車両の状態の推定と制御に特化したタスクを含む階層的な制御機構を備えている。
本稿では, (i) フェデレートされた拡張カルマンフィルタ (FEKF) と (ii) エキスパートデモレータを用いて訓練された新しい深部強化学習 (DRL) パストラッキングコントローラを提案する。
実験により検証されたモデルは、(i)FEKFの設計を支援するために使用され、(ii)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。
論文 参考訳(メタデータ) (2024-01-10T14:40:53Z) - Self-Tuning PID Control via a Hybrid Actor-Critic-Based Neural Structure
for Quadcopter Control [0.0]
Proportional-Integrator-Derivative (PID) コントローラは、幅広い産業および実験プロセスで使用されている。
モデルパラメータの不確実性と外乱のため、Quadrotorsのような実際のシステムはより堅牢で信頼性の高いPIDコントローラを必要とする。
本研究では,Reinforcement-Learning-based Neural Networkを用いた自己調整型PIDコントローラについて検討した。
論文 参考訳(メタデータ) (2023-07-03T19:35:52Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Epersist: A Self Balancing Robot Using PID Controller And Deep
Reinforcement Learning [0.0]
二輪自走式ロボットは逆振り子の例であり、本質的に非線形で不安定なシステムである。
「エスペリスト」とは、ロバストな制御機構を提供することで、当初不安定なシステムに逆らうという課題を克服することである。
論文 参考訳(メタデータ) (2022-07-23T06:27:21Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Adaptive Model Predictive Control by Learning Classifiers [26.052368583196426]
制御パラメータとモデルパラメータを自動的に推定する適応型MPC変種を提案する。
我々は,BOを密度比推定として定式化できることを示す最近の結果を活用する。
その後、これはモデル予測経路積分制御フレームワークに統合され、様々な困難なロボティクスタスクのための堅牢なコントローラを生成する。
論文 参考訳(メタデータ) (2022-03-13T23:22:12Z) - Adaptive Model Predictive Control of Wheeled Mobile Robots [0.0]
本稿では,未知の慣性を持つ二輪移動ロボットを所望の点と向きに誘導する制御アルゴリズムを提案する。
この二輪移動ロボットは、ナイフエッジや非ホロノミックキネマティック制約のあるスケートとしてモデル化されている。
このアルゴリズムの有効性は, 論文末尾の数値シミュレーションによって実証される。
論文 参考訳(メタデータ) (2022-01-03T20:07:44Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。