論文の概要: Online Constrained Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.03499v1
- Date: Tue, 7 Apr 2020 15:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:03:03.671410
- Title: Online Constrained Model-based Reinforcement Learning
- Title(参考訳): オンライン制約付きモデルベース強化学習
- Authors: Benjamin van Niekerk, Andreas Damianou, Benjamin Rosman
- Abstract要約: 主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
- 参考スコア(独自算出の注目度): 13.362455603441552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying reinforcement learning to robotic systems poses a number of
challenging problems. A key requirement is the ability to handle continuous
state and action spaces while remaining within a limited time and resource
budget. Additionally, for safe operation, the system must make robust decisions
under hard constraints. To address these challenges, we propose a model based
approach that combines Gaussian Process regression and Receding Horizon
Control. Using sparse spectrum Gaussian Processes, we extend previous work by
updating the dynamics model incrementally from a stream of sensory data. This
results in an agent that can learn and plan in real-time under non-linear
constraints. We test our approach on a cart pole swing-up environment and
demonstrate the benefits of online learning on an autonomous racing task. The
environment's dynamics are learned from limited training data and can be reused
in new task instances without retraining.
- Abstract(参考訳): 強化学習をロボットシステムに適用することは、多くの問題を引き起こす。
重要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
さらに、安全な運用のためには、システムは厳しい制約の下で堅牢な決定をしなければならない。
これらの課題に対処するため,ガウス過程回帰と回帰水平制御を組み合わせたモデルベースアプローチを提案する。
スパーススペクトルガウス過程を用いて,センサデータのストリームから動的モデルを漸進的に更新することにより,従来の作業を拡張した。
これにより、非線形制約下でリアルタイムで学習し計画できるエージェントが生まれる。
このアプローチをカートポールスイングアップ環境でテストし,自律走行タスクにおけるオンライン学習のメリットを実証する。
環境のダイナミクスは限られたトレーニングデータから学び、再トレーニングせずに新しいタスクインスタンスで再利用できる。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Controlling dynamical systems to complex target states using machine
learning: next-generation vs. classical reservoir computing [68.8204255655161]
機械学習を用いた非線形力学系の制御は、システムを周期性のような単純な振る舞いに駆動するだけでなく、より複雑な任意の力学を駆動する。
まず, 従来の貯水池計算が優れていることを示す。
次のステップでは、これらの結果を異なるトレーニングデータに基づいて比較し、代わりに次世代貯水池コンピューティングを使用する別のセットアップと比較する。
その結果、通常のトレーニングデータに対して同等のパフォーマンスを提供する一方で、次世代RCは、非常に限られたデータしか利用できない状況において、著しくパフォーマンスが向上していることがわかった。
論文 参考訳(メタデータ) (2023-07-14T07:05:17Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - Continual Model-Based Reinforcement Learning with Hypernetworks [24.86684067407964]
本稿では,タスク条件付きハイパーネットを用いたタスクのシーケンスにおいて,遭遇するダイナミクスを継続的に学習する手法を提案する。
まず、従来のタスクからトレーニングデータを再考しない動的学習セッションを含むので、状態遷移経験の最新の固定サイズの部分を格納するだけです。
ロボットの移動と操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。
論文 参考訳(メタデータ) (2020-09-25T01:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。