論文の概要: Soft Actor-Critic Algorithm with Truly-satisfied Inequality Constraint
- arxiv url: http://arxiv.org/abs/2303.04356v2
- Date: Sun, 2 Jul 2023 08:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 14:11:03.947806
- Title: Soft Actor-Critic Algorithm with Truly-satisfied Inequality Constraint
- Title(参考訳): 完全満足な不等式制約をもつソフトアクタ臨界アルゴリズム
- Authors: Taisuke Kobayashi
- Abstract要約: 強化学習におけるソフトアクター批判(SAC)は,次世代ロボット制御方式の一つとして期待されている。
現在のSACは、私たちの期待に反して、政策のエントロピーを最大化しない。
本稿では,学習可能な状態依存スラック変数を用いて実装を改善する。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft actor-critic (SAC) in reinforcement learning is expected to be one of
the next-generation robot control schemes. Its ability to maximize policy
entropy would make a robotic controller robust to noise and perturbation, which
is useful for real-world robot applications. However, the priority of
maximizing the policy entropy is automatically tuned in the current
implementation, the rule of which can be interpreted as one for equality
constraint, binding the policy entropy into its specified lower bound. The
current SAC is therefore no longer maximize the policy entropy, contrary to our
expectation. To resolve this issue in SAC, this paper improves its
implementation with a learnable state-dependent slack variable for
appropriately handling the inequality constraint to maximize the policy entropy
by reformulating it as the corresponding equality constraint. The introduced
slack variable is optimized by a switching-type loss function that takes into
account the dual objectives of satisfying the equality constraint and checking
the lower bound. In Mujoco and Pybullet simulators, the modified SAC
statistically achieved the higher robustness for adversarial attacks than
before while regularizing the norm of action. A real-robot variable impedance
task was demonstrated for showing the applicability of the modified SAC to
real-world robot control. In particular, the modified SAC maintained adaptive
behaviors for physical human-robot interaction, which had no experience at all
during training. https://youtu.be/EH3xVtlVaJw
- Abstract(参考訳): 強化学習におけるソフトアクター批判(SAC)は,次世代ロボット制御方式の一つとして期待されている。
ポリシーエントロピーを最大化することで、ノイズや摂動に頑健なロボットコントローラーが実現する。
しかし、ポリシーエントロピーを最大化する優先事項は、現在の実施において自動的に調整され、その規則は平等制約の1つとして解釈され、ポリシーエントロピーを指定された下限に拘束する。
したがって現在のSACは、私たちの期待に反して、政策のエントロピーを最大化しない。
SACにおけるこの問題を解決するため,不等式制約を適切に扱うための学習可能な状態依存スラック変数による実装を改良し,それに対応する等式制約として修正し,政策エントロピーを最大化する。
導入されたスラック変数は、等価性制約を満たし、下位境界をチェックするという2つの目的を考慮したスイッチング型損失関数によって最適化される。
Mujoco と Pybullet のシミュレータでは、修正された SAC は、行動規範を定式化しながら、敵攻撃に対する高い堅牢性を統計的に達成した。
実世界ロボット制御への改良SACの適用性を示すために,実ロボット可変インピーダンスタスクを実証した。
特に、修正されたSACは、トレーニング中に全く経験のない物理的人間とロボットの相互作用に対して適応的な行動を維持した。
https://youtu.be/EH3xVtlVaJw
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Improved Policy Optimization for Online Imitation Learning [17.450401609682544]
オンライン模倣学習(OIL)では,環境との活発な相互作用を通じて専門家の行動を模倣する政策を見出すことが課題である。
論文 参考訳(メタデータ) (2022-07-29T22:02:14Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Teaching a Robot to Walk Using Reinforcement Learning [0.0]
強化学習は 最適な歩行方針を 簡単に訓練できる
我々は,OpenAI Gym BipedalWalker-v3環境を用いて,2次元二足歩行ロボットに歩行の仕方を教える。
ARSはより優れた訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。
論文 参考訳(メタデータ) (2021-12-13T21:35:45Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。