論文の概要: Configuration Path Control
- arxiv url: http://arxiv.org/abs/2204.02471v1
- Date: Tue, 5 Apr 2022 20:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:26:57.656375
- Title: Configuration Path Control
- Title(参考訳): 構成経路制御
- Authors: Sergey Pankov
- Abstract要約: 本稿では,構成経路の空間における制御ポリシーの安定化手法を提案する。
トレーニング後に適用され、トレーニング中に生成されたデータにのみ依存する。
摂動振幅で測定すると,安定性は2倍から4倍に向上することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning methods often produce brittle policies -- policies
that perform well during training, but generalize poorly beyond their direct
training experience, thus becoming unstable under small disturbances. To
address this issue, we propose a method for stabilizing a control policy in the
space of configuration paths. It is applied post-training and relies purely on
the data produced during training, as well as on an instantaneous
control-matrix estimation. The approach is evaluated empirically on a planar
bipedal walker subjected to a variety of perturbations. The control policies
obtained via reinforcement learning are compared against their stabilized
counterparts. Across different experiments, we find two- to four-fold increase
in stability, when measured in terms of the perturbation amplitudes. We also
provide a zero-dynamics interpretation of our approach.
- Abstract(参考訳): 強化学習法は、訓練中にうまく機能するが、直接訓練経験を超越して、小さな乱れの中で不安定になるような不安定な政策をしばしば生み出す。
この問題に対処するために,構成経路の空間における制御ポリシーの安定化手法を提案する。
トレーニング後に適用され、トレーニング中に生成されたデータと、即時のコントロール行列推定に依存する。
このアプローチは、様々な摂動を受ける平面二足歩行者に実験的に評価される。
強化学習によって得られる制御方針を、安定化した相手と比較する。
異なる実験により、摂動振幅で測定すると、安定性は2倍から4倍に向上することがわかった。
また、このアプローチのゼロダイナミックス解釈も提供する。
関連論文リスト
- SelfBC: Self Behavior Cloning for Offline Reinforcement Learning [14.573290839055316]
本研究では,これまでに学習したポリシーの指数的移動平均によって生成されたサンプルに対して,学習したポリシーを制約する新しい動的ポリシー制約を提案する。
我々のアプローチは、ほぼ単調に改善された参照ポリシーをもたらす。
論文 参考訳(メタデータ) (2024-08-04T23:23:48Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Behavior Constraining in Weight Space for Offline Reinforcement Learning [2.7184068098378855]
オフラインの強化学習では、ポリシーは単一のデータセットから学ぶ必要がある。
そこで,本研究では,本手法を重み空間内で直接制約する新しいアルゴリズムを提案し,その有効性を実験で実証する。
論文 参考訳(メタデータ) (2021-07-12T14:50:50Z) - Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$
Adaptive Control [7.025818894763949]
強化学習(RL)ポリシーは、動的変動が存在するため、新しい/摂動環境において失敗する可能性がある。
本稿では, 適応制御を$mathcalL_1$で行うことで, 事前学習した非ロバストRLポリシーを堅牢化する手法を提案する。
提案手法は,シミュレータでも実世界でも,標準(非ロバスト)方式で訓練されたRLポリシーのロバスト性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T04:28:46Z) - On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions [3.296303220677533]
線形ポリシーの模倣学習を制約付き最適化問題として定式化する。
線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
論文 参考訳(メタデータ) (2021-03-24T02:43:03Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。