論文の概要: GPU-Accelerated Policy Optimization via Batch Automatic Differentiation
of Gaussian Processes for Real-World Control
- arxiv url: http://arxiv.org/abs/2202.13638v1
- Date: Mon, 28 Feb 2022 09:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 18:23:06.017487
- Title: GPU-Accelerated Policy Optimization via Batch Automatic Differentiation
of Gaussian Processes for Real-World Control
- Title(参考訳): 実世界制御のためのガウス過程のバッチ自動微分によるGPU高速化政策最適化
- Authors: Abdolreza Taheri, Joni Pajarinen, Reza Ghabcheloo
- Abstract要約: 我々は, 高速な予測サンプリング手法を利用して, 前方通過毎に軌道のバッチ処理を行うことにより, 政策最適化手法を開発した。
重機を用いた基準追従制御実験の訓練方針における本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 8.720903734757627
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ability of Gaussian processes (GPs) to predict the behavior of dynamical
systems as a more sample-efficient alternative to parametric models seems
promising for real-world robotics research. However, the computational
complexity of GPs has made policy search a highly time and memory consuming
process that has not been able to scale to larger problems. In this work, we
develop a policy optimization method by leveraging fast predictive sampling
methods to process batches of trajectories in every forward pass, and compute
gradient updates over policy parameters by automatic differentiation of Monte
Carlo evaluations, all on GPU. We demonstrate the effectiveness of our approach
in training policies on a set of reference-tracking control experiments with a
heavy-duty machine. Benchmark results show a significant speedup over exact
methods and showcase the scalability of our method to larger policy networks,
longer horizons, and up to thousands of trajectories with a sublinear drop in
speed.
- Abstract(参考訳): パラメトリックモデルのよりサンプル効率の良い代替手段としての力学系の挙動を予測できるガウス過程(GP)の能力は、現実のロボティクス研究に期待できる。
しかし、gpsの計算の複雑さにより、ポリシー検索は、より大きな問題にスケールできない非常に時間とメモリ消費のプロセスとなった。
本研究では,フォワードパス毎に経路のバッチ処理を行う高速予測サンプリング手法を活用し,モンテカルロ評価の自動微分によるポリシーパラメータの勾配更新をgpu上で計算することにより,ポリシー最適化手法を開発した。
本研究では,重機を用いた参照追跡制御実験における訓練方針の有効性を実証する。
ベンチマークの結果、正確な手法よりも大幅に高速化され、より大規模なポリシーネットワーク、より長い地平線、そしてサブ線形の速度低下を伴う数千の軌道に対する我々の手法のスケーラビリティが示される。
関連論文リスト
- Towards safe and tractable Gaussian process-based MPC: Efficient sampling within a sequential quadratic programming framework [35.79393879150088]
本稿では,制約満足度を高い確率で保証する頑健なGP-MPCの定式化を提案する。
提案手法は,既存手法とリアルタイム実現可能な時間に比較して,改良された到達可能集合近似を強調した。
論文 参考訳(メタデータ) (2024-09-13T08:15:20Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Inferring Smooth Control: Monte Carlo Posterior Policy Iteration with
Gaussian Processes [39.411957858548355]
オンラインシーケンシャル推論を用いて,よりスムーズなモデル予測因子制御を実現する方法を示す。
提案手法は,いくつかのロボット制御タスクにおいて,従来の手法と一致し,スムーズさを確保しつつ評価する。
論文 参考訳(メタデータ) (2022-10-07T12:56:31Z) - Learning Robust Controllers Via Probabilistic Model-Based Policy Search [2.886634516775814]
このような方法で学習したコントローラが、環境の小さな摂動の下で頑健であり、一般化できるかどうかを考察する。
ガウス過程のダイナミックスモデルにおける確率雑音に対する低拘束がポリシー更新を規則化し、より堅牢なコントローラが得られることを示す。
論文 参考訳(メタデータ) (2021-10-26T11:17:31Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - ParticleAugment: Sampling-Based Data Augmentation [80.44268663372233]
モデルトレーニング中に最適な拡張ポリシーとスケジュールを求めるために,粒子フィルタリングの定式化を提案する。
CIFAR-10, CIFAR-100, ImageNetデータセットにおいて, 自動拡張のための定式化が有望な結果に達することを示す。
論文 参考訳(メタデータ) (2021-06-16T10:56:02Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Gaussian Process Policy Optimization [0.0]
本稿では,アクターに批判的かつモデルなしの強化学習アルゴリズムを提案する。
ベイズ的パラメータ空間探索法を用いて環境を解く。
ロボットの移動をシミュレートする環境において、現在のアルゴリズムよりも経験的に優れていることが示されています。
論文 参考訳(メタデータ) (2020-03-02T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。