論文の概要: Optimization Algorithm for Feedback and Feedforward Policies towards
Robot Control Robust to Sensing Failures
- arxiv url: http://arxiv.org/abs/2104.00385v1
- Date: Thu, 1 Apr 2021 10:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:22:24.099046
- Title: Optimization Algorithm for Feedback and Feedforward Policies towards
Robot Control Robust to Sensing Failures
- Title(参考訳): センシング障害にロバストなロボット制御のためのフィードバックとフィードフォワードの最適化アルゴリズム
- Authors: Taisuke Kobayashi, Kenta Yoshizawa
- Abstract要約: 両FB/FFポリシーを同時に最適化するための新しい最適化問題を提案する。
数値シミュレーションとロボット実験において,従来のRLと異なる学習法則を用いても,提案手法が安定して構成ポリシーを最適化できることを確認した。
- 参考スコア(独自算出の注目度): 1.7970523486905976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free or learning-based control, in particular, reinforcement learning
(RL), is expected to be applied for complex robotic tasks. Traditional RL
requires a policy to be optimized is state-dependent, that means, the policy is
a kind of feedback (FB) controllers. Due to the necessity of correct state
observation in such a FB controller, it is sensitive to sensing failures. To
alleviate this drawback of the FB controllers, feedback error learning
integrates one of them with a feedforward (FF) controller. RL can be improved
by dealing with the FB/FF policies, but to the best of our knowledge, a
methodology for learning them in a unified manner has not been developed. In
this paper, we propose a new optimization problem for optimizing both the FB/FF
policies simultaneously. Inspired by control as inference, the optimization
problem considers minimization/maximization of divergences between trajectory,
predicted by the composed policy and a stochastic dynamics model, and
optimal/non-optimal trajectories. By approximating the stochastic dynamics
model using variational method, we naturally derive a regularization between
the FB/FF policies. In numerical simulations and a robot experiment, we
verified that the proposed method can stably optimize the composed policy even
with the different learning law from the traditional RL. In addition, we
demonstrated that the FF policy is robust to the sensing failures and can hold
the optimal motion. Attached video is also uploaded on youtube:
https://youtu.be/zLL4uXIRmrE
- Abstract(参考訳): モデルフリーまたは学習に基づく制御、特に強化学習(RL)は複雑なロボットタスクに適用されることが期待される。
従来のRLでは、最適化されるポリシーは状態依存であり、つまり、ポリシーはフィードバック(FB)コントローラの一種である。
このようなfbコントローラでは、状態の正しい観測が必要であるため、障害の検知に敏感である。
このfbコントローラの欠点を軽減するために、フィードバックエラー学習は、その1つをfeedforward(ff)コントローラに統合する。
RLはFB/FFポリシーに対処することで改善できるが、私たちの知る限り、それらを統一的に学習するための方法論は開発されていない。
本稿では,FB/FFポリシーを同時に最適化するための新しい最適化問題を提案する。
制御を推論として着想を得た最適化問題は、合成ポリシーと確率力学モデルによって予測される軌道間のばらつきの最小化と最大化、最適/非最適軌道モデルを考える。
変動法を用いて確率力学モデルを近似することにより、FB/FFポリシー間の規則化を自然に導出する。
数値シミュレーションとロボット実験において,従来のRLと異なる学習法則を用いても,提案手法が安定して構成ポリシーを最適化できることを確認した。
さらに, FFポリシが検知障害に対して堅牢であり, 最適動作を維持できることを実証した。
添付ビデオもyoutubeにアップロードされている: https://youtu.be/zll4uxirmre
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Pareto Deterministic Policy Gradients and Its Application in 5G Massive
MIMO Networks [32.099949375036495]
我々は,強化学習(RL)アプローチを用いて,セルロードバランスとネットワークスループットを協調的に最適化することを検討する。
RLの背景にある理論的根拠は、ユーザモビリティとネットワークのダイナミクスを解析的にモデル化することの難しさを回避することである。
この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
論文 参考訳(メタデータ) (2020-12-02T15:35:35Z) - PFPN: Continuous Control of Physically Simulated Characters using
Particle Filtering Policy Network [0.9137554315375919]
本稿では,粒子に基づく行動政策をガウス政策の代替とみなす枠組みを提案する。
本手法が様々なモーションキャプチャー模倣タスクに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-03-16T00:35:36Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。