論文の概要: Reinforcement Learning Control of Robotic Knee with Human in the Loop by
Flexible Policy Iteration
- arxiv url: http://arxiv.org/abs/2006.09008v2
- Date: Sun, 17 Jan 2021 11:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 21:51:32.735657
- Title: Reinforcement Learning Control of Robotic Knee with Human in the Loop by
Flexible Policy Iteration
- Title(参考訳): 柔軟なポリシー反復によるループ型ロボット膝の強化学習制御
- Authors: Xiang Gao, Jennie Si, Yue Wen, Minhan Li and He (Helen) Huang
- Abstract要約: 本研究は,ポリシーアルゴリズムに革新的な特徴を導入することで,重要な空白を埋める。
本稿では,近似値関数の収束,解の最適性,システムの安定性などのシステムレベルの性能を示す。
- 参考スコア(独自算出の注目度): 17.365135977882215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are motivated by the real challenges presented in a human-robot system to
develop new designs that are efficient at data level and with performance
guarantees such as stability and optimality at systems level. Existing
approximate/adaptive dynamic programming (ADP) results that consider system
performance theoretically are not readily providing practically useful learning
control algorithms for this problem; and reinforcement learning (RL) algorithms
that address the issue of data efficiency usually do not have performance
guarantees for the controlled system. This study fills these important voids by
introducing innovative features to the policy iteration algorithm. We introduce
flexible policy iteration (FPI), which can flexibly and organically integrate
experience replay and supplemental values from prior experience into the RL
controller. We show system level performances including convergence of the
approximate value function, (sub)optimality of the solution, and stability of
the system. We demonstrate the effectiveness of the FPI via realistic
simulations of the human-robot system. It is noted that the problem we face in
this study may be difficult to address by design methods based on classical
control theory as it is nearly impossible to obtain a customized mathematical
model of a human-robot system either online or offline. The results we have
obtained also indicate the great potential of RL control to solving realistic
and challenging problems with high dimensional control inputs.
- Abstract(参考訳): 我々は、データレベルで効率的で、システムレベルでの安定性や最適性などのパフォーマンス保証を備えた新しい設計を開発するために、人間ロボットシステムで提示される真の課題に動機づけられている。
システム性能を理論的に考慮した既存の近似/適応動的プログラミング(ADP)の結果は、この問題に対して実用的に有用な学習制御アルゴリズムを提供するには至らず、データ効率の問題に対処する強化学習(RL)アルゴリズムは通常、制御システムに性能保証を持たない。
本研究は,ポリシー反復アルゴリズムに革新的な特徴を導入することで,これらの重要な空白を埋める。
フレキシブルポリシー・イテレーション (FPI) を導入し, 前回の経験から得られる経験的リプレイと補足的価値を, 柔軟かつ有機的にRLコントローラに組み込む。
本稿では,近似値関数の収束,解の最適性,システムの安定性などのシステムレベルの性能を示す。
ロボットシステムの現実的なシミュレーションによりFPIの有効性を実証する。
本研究で直面する課題は、オンラインまたはオフラインのロボットシステムのカスタマイズされた数学的モデルを得ることがほぼ不可能であるため、古典的な制御理論に基づく設計手法では解決が困難である。
その結果,RL制御が高次元制御入力を用いて現実的かつ困難な問題を解く大きな可能性を示唆した。
関連論文リスト
- SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Optimal Exploration for Model-Based RL in Nonlinear Systems [14.540210895533937]
未知の非線形力学系を制御する学習は、強化学習と制御理論の基本的な問題である。
本研究では,タスク依存メトリックにおける不確実性を低減するために,効率よくシステムを探索できるアルゴリズムを開発した。
我々のアルゴリズムは、ポリシー最適化から任意のシステムにおける最適な実験設計への一般的な還元に依存しており、独立した関心を持つ可能性がある。
論文 参考訳(メタデータ) (2023-06-15T15:47:50Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model
Predictive Control [49.60520501097199]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。