Fugu-MT 論文翻訳(概要): Reinforcement Learning Control of Robotic Knee with Human in the Loop by Flexible Policy Iteration

論文の概要: Reinforcement Learning Control of Robotic Knee with Human in the Loop by Flexible Policy Iteration

arxiv url: http://arxiv.org/abs/2006.09008v2
Date: Sun, 17 Jan 2021 11:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-20 21:51:32.735657
Title: Reinforcement Learning Control of Robotic Knee with Human in the Loop by Flexible Policy Iteration
Title（参考訳）: 柔軟なポリシー反復によるループ型ロボット膝の強化学習制御
Authors: Xiang Gao, Jennie Si, Yue Wen, Minhan Li and He (Helen) Huang
Abstract要約: 本研究は,ポリシーアルゴリズムに革新的な特徴を導入することで,重要な空白を埋める。本稿では,近似値関数の収束,解の最適性,システムの安定性などのシステムレベルの性能を示す。
参考スコア（独自算出の注目度）: 17.365135977882215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We are motivated by the real challenges presented in a human-robot system to develop new designs that are efficient at data level and with performance guarantees such as stability and optimality at systems level. Existing approximate/adaptive dynamic programming (ADP) results that consider system performance theoretically are not readily providing practically useful learning control algorithms for this problem; and reinforcement learning (RL) algorithms that address the issue of data efficiency usually do not have performance guarantees for the controlled system. This study fills these important voids by introducing innovative features to the policy iteration algorithm. We introduce flexible policy iteration (FPI), which can flexibly and organically integrate experience replay and supplemental values from prior experience into the RL controller. We show system level performances including convergence of the approximate value function, (sub)optimality of the solution, and stability of the system. We demonstrate the effectiveness of the FPI via realistic simulations of the human-robot system. It is noted that the problem we face in this study may be difficult to address by design methods based on classical control theory as it is nearly impossible to obtain a customized mathematical model of a human-robot system either online or offline. The results we have obtained also indicate the great potential of RL control to solving realistic and challenging problems with high dimensional control inputs.
Abstract（参考訳）: 我々は、データレベルで効率的で、システムレベルでの安定性や最適性などのパフォーマンス保証を備えた新しい設計を開発するために、人間ロボットシステムで提示される真の課題に動機づけられている。システム性能を理論的に考慮した既存の近似/適応動的プログラミング(ADP)の結果は、この問題に対して実用的に有用な学習制御アルゴリズムを提供するには至らず、データ効率の問題に対処する強化学習(RL)アルゴリズムは通常、制御システムに性能保証を持たない。本研究は,ポリシー反復アルゴリズムに革新的な特徴を導入することで,これらの重要な空白を埋める。フレキシブルポリシー・イテレーション (FPI) を導入し, 前回の経験から得られる経験的リプレイと補足的価値を, 柔軟かつ有機的にRLコントローラに組み込む。本稿では,近似値関数の収束,解の最適性,システムの安定性などのシステムレベルの性能を示す。ロボットシステムの現実的なシミュレーションによりFPIの有効性を実証する。本研究で直面する課題は、オンラインまたはオフラインのロボットシステムのカスタマイズされた数学的モデルを得ることがほぼ不可能であるため、古典的な制御理論に基づく設計手法では解決が困難である。その結果,RL制御が高次元制御入力を用いて現実的かつ困難な問題を解く大きな可能性を示唆した。

関連論文リスト

Cost-effective Reduced-Order Modeling via Bayesian Active Learning [12.256032958843065]
本研究では,不確実性を意識したベイズ固有分解(POD)に基づく能動的学習フレームワークBayPOD-ALを提案する。棒の温度変化を予測する実験結果から,ベイポッドALの有効性が示唆された。トレーニングデータセットよりも高時間分解能のデータセット上で,ベイポD-ALの性能を評価することにより,ベイポD-ALの一般化性と効率を実証する。
論文参考訳（メタデータ） (2025-06-27T21:23:37Z)
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文参考訳（メタデータ） (2025-04-23T12:58:15Z)
Online Control-Informed Learning [4.907545537403502]
本稿では,リアルタイムに学習・制御タスクの幅広いクラスを解決するためのオンライン制御情報学習フレームワークを提案する。任意のロボットを調整可能な最適制御系として考慮し,拡張カルマンフィルタ(EKF)に基づくオンラインパラメータ推定器を提案する。提案手法は,データ中の雑音を効果的に管理することにより,学習の堅牢性も向上する。
論文参考訳（メタデータ） (2024-10-04T21:03:16Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文参考訳（メタデータ） (2024-05-01T21:11:29Z)
Active Learning for Control-Oriented Identification of Nonlinear Systems [26.231260751633307]
本稿では,非線形力学の一般クラスに適した能動学習アルゴリズムの最初の有限サンプル解析について述べる。ある設定では、アルゴリズムの過剰な制御コストは、対数係数まで、最適な速度を達成する。我々は,非線形システムの制御におけるアクティブな制御指向探索の利点を示すとともに,シミュレーションにおける我々のアプローチを検証する。
論文参考訳（メタデータ） (2024-04-13T15:40:39Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
Optimal Exploration for Model-Based RL in Nonlinear Systems [14.540210895533937]
未知の非線形力学系を制御する学習は、強化学習と制御理論の基本的な問題である。本研究では,タスク依存メトリックにおける不確実性を低減するために,効率よくシステムを探索できるアルゴリズムを開発した。我々のアルゴリズムは、ポリシー最適化から任意のシステムにおける最適な実験設計への一般的な還元に依存しており、独立した関心を持つ可能性がある。
論文参考訳（メタデータ） (2023-06-15T15:47:50Z)
On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文参考訳（メタデータ） (2023-02-05T01:39:21Z)
Efficient Learning of Voltage Control Strategies via Model-based Deep Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-06T02:50:53Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。 AntLer は確率 1 と任意に最適な解を近似することを示す。
論文参考訳（メタデータ） (2020-07-24T07:00:14Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。