論文の概要: Tracking Control for a Spherical Pendulum via Curriculum Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2309.14096v1
- Date: Mon, 25 Sep 2023 12:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 15:40:25.819557
- Title: Tracking Control for a Spherical Pendulum via Curriculum Reinforcement
Learning
- Title(参考訳): カリキュラム強化学習による球形振り子追跡制御
- Authors: Pascal Klink, Florian Wolf, Kai Ploeger, Jan Peters and Joni Pajarinen
- Abstract要約: 強化学習(RL)は、データから純粋に非自明なロボット制御法を学習することを可能にする。
本稿では,大規模並列化シミュレーションに基づいてRLでキュリキュラを自動構築するアルゴリズムを提案する。
非線形トラッキングタスクに対する状態推定と制御を共同で学習するカリキュラムRLの可能性を示す。
- 参考スコア(独自算出の注目度): 27.73555826776087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) allows learning non-trivial robot control laws
purely from data. However, many successful applications of RL have relied on
ad-hoc regularizations, such as hand-crafted curricula, to regularize the
learning performance. In this paper, we pair a recent algorithm for
automatically building curricula with RL on massively parallelized simulations
to learn a tracking controller for a spherical pendulum on a robotic arm via
RL. Through an improved optimization scheme that better respects the
non-Euclidean task structure, we allow the method to reliably generate
curricula of trajectories to be tracked, resulting in faster and more robust
learning compared to an RL baseline that does not exploit this form of
structured learning. The learned policy matches the performance of an optimal
control baseline on the real system, demonstrating the potential of curriculum
RL to jointly learn state estimation and control for non-linear tracking tasks.
- Abstract(参考訳): 強化学習(RL)は、データから純粋に非自明なロボット制御法を学習することを可能にする。
しかし、RLの多くの成功例は、手作りのカリキュラムのようなアドホックな正規化に頼って学習性能を正規化している。
本稿では,ロボットアームの球形振り子の追従制御を学習するために,超並列シミュレーションにおいて,rlを用いた曲率の自動構築を行う最近のアルゴリズムを組み合わせる。
非ユークリッド的タスク構造をよりよく尊重する改良された最適化手法により、この手法はトラジェクトリのキュリキュラを確実に生成することができ、この形式の構造化学習を活用できないRLベースラインに比べて高速で堅牢な学習が可能となる。
学習方針は実システム上での最適制御ベースラインの性能と一致し、非線形トラッキングタスクの状態推定と制御を共同で学習するカリキュラムRLの可能性を示す。
関連論文リスト
- Online Control-Informed Learning [4.907545537403502]
本稿では,リアルタイムに学習・制御タスクの幅広いクラスを解決するためのオンライン制御情報学習フレームワークを提案する。
任意のロボットを調整可能な最適制御系として考慮し,拡張カルマンフィルタ(EKF)に基づくオンラインパラメータ推定器を提案する。
提案手法は,データ中の雑音を効果的に管理することにより,学習の堅牢性も向上する。
論文 参考訳(メタデータ) (2024-10-04T21:03:16Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。