論文の概要: Soft Actor-Critic Algorithm with Truly Inequality Constraint
- arxiv url: http://arxiv.org/abs/2303.04356v1
- Date: Wed, 8 Mar 2023 03:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:08:55.658640
- Title: Soft Actor-Critic Algorithm with Truly Inequality Constraint
- Title(参考訳): 完全不等式制約付きソフトアクタ臨界アルゴリズム
- Authors: Taisuke Kobayashi
- Abstract要約: 強化学習におけるソフトアクター批判(SAC)は,次世代ロボット制御方式の一つとして期待されている。
本稿では、不等式制約を適切に扱い、政策エントロピーを最大化するためのスラック変数による実装を改善する。
Mujoco と Pybullet のシミュレータでは、改良された SAC は以前よりも高い堅牢性と安定した学習を実現した。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft actor-critic (SAC) in reinforcement learning is expected to be one of
the next-generation robot control schemes. Its ability to maximize policy
entropy would make a robotic controller robust to noise and perturbation, which
is useful for real-world robot applications. However, the priority of
maximizing the policy entropy is automatically tuned in the current
implementation, the rule of which can be interpreted as one for equality
constraint, binding the policy entropy into its specified target value. The
current SAC is therefore no longer maximize the policy entropy, contrary to our
expectation. To resolve this issue in SAC, this paper improves its
implementation with a slack variable for appropriately handling the inequality
constraint to maximize the policy entropy. In Mujoco and Pybullet simulators,
the modified SAC achieved the higher robustness and the more stable learning
than before while regularizing the norm of action. In addition, a real-robot
variable impedance task was demonstrated for showing the applicability of the
modified SAC to real-world robot control.
- Abstract(参考訳): 強化学習におけるソフトアクター批判(SAC)は,次世代ロボット制御方式の一つとして期待されている。
ポリシーエントロピーを最大化することで、ノイズや摂動に頑健なロボットコントローラーが実現する。
しかし、ポリシーエントロピーを最大化する優先事項は、現在の実施において自動的に調整され、その規則は平等制約の1つとして解釈され、ポリシーエントロピーを指定された目標値に拘束する。
したがって現在のSACは、私たちの期待に反して、政策のエントロピーを最大化しない。
SACにおけるこの問題を解決するため、政策エントロピーを最大化するために不等式制約を適切に扱うスラック変数による実装を改善する。
Mujoco と Pybullet のシミュレータでは、修正された SAC は動作規範を正規化しながら、より堅牢で安定した学習を実現した。
また,実世界のロボット制御に対する修正sacの適用性を示すために,実ロボット可変インピーダンスタスクが実証された。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Improved Policy Optimization for Online Imitation Learning [17.450401609682544]
オンライン模倣学習(OIL)では,環境との活発な相互作用を通じて専門家の行動を模倣する政策を見出すことが課題である。
論文 参考訳(メタデータ) (2022-07-29T22:02:14Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Teaching a Robot to Walk Using Reinforcement Learning [0.0]
強化学習は 最適な歩行方針を 簡単に訓練できる
我々は,OpenAI Gym BipedalWalker-v3環境を用いて,2次元二足歩行ロボットに歩行の仕方を教える。
ARSはより優れた訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。
論文 参考訳(メタデータ) (2021-12-13T21:35:45Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。