Fugu-MT 論文翻訳(概要): Autotuning PID control using Actor-Critic Deep Reinforcement Learning

論文の概要: Autotuning PID control using Actor-Critic Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2212.00013v1
Date: Tue, 29 Nov 2022 11:15:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 15:18:49.599149
Title: Autotuning PID control using Actor-Critic Deep Reinforcement Learning
Title（参考訳）: Actor-Critic Deep Reinforcement Learning を用いたPID自動制御
Authors: Vivien van Veldhuizen
Abstract要約: モデルがリンゴの位置に基づいてPIDパラメータを予測できるかどうかを調べる。最初のテストでは、モデルがその予測をリンゴの場所に適応できることが示され、適応的なコントローラになっている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work is an exploratory research concerned with determining in what way reinforcement learning can be used to predict optimal PID parameters for a robot designed for apple harvest. To study this, an algorithm called Advantage Actor Critic (A2C) is implemented on a simulated robot arm. The simulation primarily relies on the ROS framework. Experiments for tuning one actuator at a time and two actuators a a time are run, which both show that the model is able to predict PID gains that perform better than the set baseline. In addition, it is studied if the model is able to predict PID parameters based on where an apple is located. Initial tests show that the model is indeed able to adapt its predictions to apple locations, making it an adaptive controller.
Abstract（参考訳）: この研究は、リンゴ収穫用に設計されたロボットに対して、強化学習を用いて最適なPIDパラメータを予測する方法についての探索研究である。これを研究するために、シミュレーションロボットアームにAdvantage Actor Critic (A2C)と呼ばれるアルゴリズムを実装した。シミュレーションは主にROSフレームワークに依存している。 1回に1つのアクチュエータをチューニングする実験と1回に2つのアクチュエータを動作させることにより、モデルがセットベースラインよりも優れたPIDゲインを予測できることを示す。さらに、リンゴの位置に基づいて、モデルがPIDパラメータを予測できるかどうかについても検討した。最初のテストでは、モデルがその予測をリンゴの場所に適応できることが示され、適応的なコントローラになっている。

関連論文リスト

PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。 PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文参考訳（メタデータ） (2024-10-14T11:30:18Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Planning with Adaptive World Models for Autonomous Driving [50.4439896514353]
運動プランナー(MP)は複雑な都市環境における安全なナビゲーションに不可欠である。最近リリースされたMPベンチマークであるnuPlanは、クローズドループシミュレーションロジックで現実世界の駆動ログを拡張することで、この制限に対処している。本稿では,モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverを提案する。
論文参考訳（メタデータ） (2024-06-15T18:53:45Z)
Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文参考訳（メタデータ） (2024-04-04T10:54:38Z)
Modelling, Positioning, and Deep Reinforcement Learning Path Tracking Control of Scaled Robotic Vehicles: Design and Experimental Validation [3.807917169053206]
スケールされたロボットカーは通常、車両の状態の推定と制御に特化したタスクを含む階層的な制御機構を備えている。本稿では, (i) フェデレートされた拡張カルマンフィルタ (FEKF) と (ii) エキスパートデモレータを用いて訓練された新しい深部強化学習 (DRL) パストラッキングコントローラを提案する。実験により検証されたモデルは、(i)FEKFの設計を支援するために使用され、(ii)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。
論文参考訳（メタデータ） (2024-01-10T14:40:53Z)
Self-Tuning PID Control via a Hybrid Actor-Critic-Based Neural Structure for Quadcopter Control [0.0]
Proportional-Integrator-Derivative (PID) コントローラは、幅広い産業および実験プロセスで使用されている。モデルパラメータの不確実性と外乱のため、Quadrotorsのような実際のシステムはより堅牢で信頼性の高いPIDコントローラを必要とする。本研究では,Reinforcement-Learning-based Neural Networkを用いた自己調整型PIDコントローラについて検討した。
論文参考訳（メタデータ） (2023-07-03T19:35:52Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
Epersist: A Self Balancing Robot Using PID Controller And Deep Reinforcement Learning [0.0]
二輪自走式ロボットは逆振り子の例であり、本質的に非線形で不安定なシステムである。「エスペリスト」とは、ロバストな制御機構を提供することで、当初不安定なシステムに逆らうという課題を克服することである。
論文参考訳（メタデータ） (2022-07-23T06:27:21Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
Adaptive Model Predictive Control by Learning Classifiers [26.052368583196426]
制御パラメータとモデルパラメータを自動的に推定する適応型MPC変種を提案する。我々は,BOを密度比推定として定式化できることを示す最近の結果を活用する。その後、これはモデル予測経路積分制御フレームワークに統合され、様々な困難なロボティクスタスクのための堅牢なコントローラを生成する。
論文参考訳（メタデータ） (2022-03-13T23:22:12Z)
Adaptive Model Predictive Control of Wheeled Mobile Robots [0.0]
本稿では,未知の慣性を持つ二輪移動ロボットを所望の点と向きに誘導する制御アルゴリズムを提案する。この二輪移動ロボットは、ナイフエッジや非ホロノミックキネマティック制約のあるスケートとしてモデル化されている。このアルゴリズムの有効性は, 論文末尾の数値シミュレーションによって実証される。
論文参考訳（メタデータ） (2022-01-03T20:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。