論文の概要: Reinforcement Learning Control of Robotic Knee with Human in the Loop by
Flexible Policy Iteration
- arxiv url: http://arxiv.org/abs/2006.09008v2
- Date: Sun, 17 Jan 2021 11:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 21:51:32.735657
- Title: Reinforcement Learning Control of Robotic Knee with Human in the Loop by
Flexible Policy Iteration
- Title(参考訳): 柔軟なポリシー反復によるループ型ロボット膝の強化学習制御
- Authors: Xiang Gao, Jennie Si, Yue Wen, Minhan Li and He (Helen) Huang
- Abstract要約: 本研究は,ポリシーアルゴリズムに革新的な特徴を導入することで,重要な空白を埋める。
本稿では,近似値関数の収束,解の最適性,システムの安定性などのシステムレベルの性能を示す。
- 参考スコア(独自算出の注目度): 17.365135977882215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are motivated by the real challenges presented in a human-robot system to
develop new designs that are efficient at data level and with performance
guarantees such as stability and optimality at systems level. Existing
approximate/adaptive dynamic programming (ADP) results that consider system
performance theoretically are not readily providing practically useful learning
control algorithms for this problem; and reinforcement learning (RL) algorithms
that address the issue of data efficiency usually do not have performance
guarantees for the controlled system. This study fills these important voids by
introducing innovative features to the policy iteration algorithm. We introduce
flexible policy iteration (FPI), which can flexibly and organically integrate
experience replay and supplemental values from prior experience into the RL
controller. We show system level performances including convergence of the
approximate value function, (sub)optimality of the solution, and stability of
the system. We demonstrate the effectiveness of the FPI via realistic
simulations of the human-robot system. It is noted that the problem we face in
this study may be difficult to address by design methods based on classical
control theory as it is nearly impossible to obtain a customized mathematical
model of a human-robot system either online or offline. The results we have
obtained also indicate the great potential of RL control to solving realistic
and challenging problems with high dimensional control inputs.
- Abstract(参考訳): 我々は、データレベルで効率的で、システムレベルでの安定性や最適性などのパフォーマンス保証を備えた新しい設計を開発するために、人間ロボットシステムで提示される真の課題に動機づけられている。
システム性能を理論的に考慮した既存の近似/適応動的プログラミング(ADP)の結果は、この問題に対して実用的に有用な学習制御アルゴリズムを提供するには至らず、データ効率の問題に対処する強化学習(RL)アルゴリズムは通常、制御システムに性能保証を持たない。
本研究は,ポリシー反復アルゴリズムに革新的な特徴を導入することで,これらの重要な空白を埋める。
フレキシブルポリシー・イテレーション (FPI) を導入し, 前回の経験から得られる経験的リプレイと補足的価値を, 柔軟かつ有機的にRLコントローラに組み込む。
本稿では,近似値関数の収束,解の最適性,システムの安定性などのシステムレベルの性能を示す。
ロボットシステムの現実的なシミュレーションによりFPIの有効性を実証する。
本研究で直面する課題は、オンラインまたはオフラインのロボットシステムのカスタマイズされた数学的モデルを得ることがほぼ不可能であるため、古典的な制御理論に基づく設計手法では解決が困難である。
その結果,RL制御が高次元制御入力を用いて現実的かつ困難な問題を解く大きな可能性を示唆した。
関連論文リスト
- Online Control-Informed Learning [4.907545537403502]
本稿では,リアルタイムに学習・制御タスクの幅広いクラスを解決するためのオンライン制御情報学習フレームワークを提案する。
任意のロボットを調整可能な最適制御系として考慮し,拡張カルマンフィルタ(EKF)に基づくオンラインパラメータ推定器を提案する。
提案手法は,データ中の雑音を効果的に管理することにより,学習の堅牢性も向上する。
論文 参考訳(メタデータ) (2024-10-04T21:03:16Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Active Learning for Control-Oriented Identification of Nonlinear Systems [26.231260751633307]
本稿では,非線形力学の一般クラスに適した能動学習アルゴリズムの最初の有限サンプル解析について述べる。
ある設定では、アルゴリズムの過剰な制御コストは、対数係数まで、最適な速度を達成する。
我々は,非線形システムの制御におけるアクティブな制御指向探索の利点を示すとともに,シミュレーションにおける我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-04-13T15:40:39Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Optimal Exploration for Model-Based RL in Nonlinear Systems [14.540210895533937]
未知の非線形力学系を制御する学習は、強化学習と制御理論の基本的な問題である。
本研究では,タスク依存メトリックにおける不確実性を低減するために,効率よくシステムを探索できるアルゴリズムを開発した。
我々のアルゴリズムは、ポリシー最適化から任意のシステムにおける最適な実験設計への一般的な還元に依存しており、独立した関心を持つ可能性がある。
論文 参考訳(メタデータ) (2023-06-15T15:47:50Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。