論文の概要: Hierarchical Policy Blending as Inference for Reactive Robot Control
- arxiv url: http://arxiv.org/abs/2210.07890v3
- Date: Mon, 29 Jul 2024 07:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:36:13.075728
- Title: Hierarchical Policy Blending as Inference for Reactive Robot Control
- Title(参考訳): 反応ロボット制御の推論としての階層的ポリシー
- Authors: Kay Hansel, Julen Urain, Jan Peters, Georgia Chalvatzaki,
- Abstract要約: ぼんやりした、密集した、ダイナミックな環境における運動生成は、ロボット工学における中心的なトピックである。
反応ポリシーと計画の利点を組み合わせた階層的な動き生成手法を提案する。
平面ナビゲーションと6DoF操作の実験的研究により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。
- 参考スコア(独自算出の注目度): 21.058662668187875
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Motion generation in cluttered, dense, and dynamic environments is a central topic in robotics, rendered as a multi-objective decision-making problem. Current approaches trade-off between safety and performance. On the one hand, reactive policies guarantee fast response to environmental changes at the risk of suboptimal behavior. On the other hand, planning-based motion generation provides feasible trajectories, but the high computational cost may limit the control frequency and thus safety. To combine the benefits of reactive policies and planning, we propose a hierarchical motion generation method. Moreover, we adopt probabilistic inference methods to formalize the hierarchical model and stochastic optimization. We realize this approach as a weighted product of stochastic, reactive expert policies, where planning is used to adaptively compute the optimal weights over the task horizon. This stochastic optimization avoids local optima and proposes feasible reactive plans that find paths in cluttered and dense environments. Our extensive experimental study in planar navigation and 6DoF manipulation shows that our proposed hierarchical motion generation method outperforms both myopic reactive controllers and online re-planning methods.
- Abstract(参考訳): 乱雑で密度の高い動的環境における運動生成は、ロボット工学における中心的なトピックであり、多目的意思決定問題として表現される。
現在のアプローチは、安全性とパフォーマンスのトレードオフです。
一方、反応政策は環境変化に対する迅速な対応を最適以下の行動のリスクで保証する。
一方、計画に基づく運動生成は、実現可能な軌道を提供するが、高い計算コストは制御周波数を制限し、したがって安全性を損なう可能性がある。
反応ポリシーと計画の利点を組み合わせるために,階層的な動き生成手法を提案する。
さらに,階層モデルと確率的最適化を形式化する確率的推論手法を採用する。
このアプローチは確率的かつリアクティブな専門家ポリシーの重み付け積として実現し,タスク水平線上で最適な重み付けを適応的に計算するために計画が使用される。
この確率的最適化は局所最適を回避し、乱雑で密度の高い環境における経路を見つける実行可能な反応性計画を提案する。
平面ナビゲーションと6DoF操作の広範な実験により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。
関連論文リスト
- Extremum-Seeking Action Selection for Accelerating Policy Optimization [18.162794442835413]
連続空間の制御のための強化学習は、典型的にはガウス分布のような高エントロピーポリシーを用いて局所的な探索と性能の最適化を推定する。
本稿では,ESC(Extremum-Seeking Control)に基づく適応制御を付加することで,モデルフリーなRL設定におけるアクション選択を改善することを提案する。
本手法は, 各種制御学習環境において, 学習効率を向上させるために, 標準方針最適化において容易に追加することができる。
論文 参考訳(メタデータ) (2024-04-02T02:39:17Z) - A Unifying Variational Framework for Gaussian Process Motion Planning [44.332875416815384]
本稿では,変分ガウス過程に基づくロボット動作計画のためのフレームワークを提案する。
我々のフレームワークは、平等ベース、不平等ベース、ソフトモーションプランニング制約を組み込む、原則的で柔軟な方法を提供します。
その結果,提案手法は成功率とパス品質のバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-09-02T07:51:29Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - RAPTOR: End-to-end Risk-Aware MDP Planning and Policy Learning by
Backpropagation [12.600828753197204]
PyTorch (RAP) を用いたリスクアウェアプランニング(リスクアウェアプランニング)を導入する。
本研究では, 非線形ナビゲーション, HVAC制御, 線形貯水池制御を含む3つの高次要素について, これら2種類のRAPTORを評価し, 比較した。
論文 参考訳(メタデータ) (2021-06-14T09:27:19Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot
Transfer [71.44215606325005]
本稿では,シーケンシャルなサブゴールタスクの超指数空間における解を高速に計算するための,Jump-Operator Dynamic Programmingという新しいフレームワークを提案する。
このアプローチでは、時間的に拡張された行動として機能する、再利用可能な目標条件付き警察のアンサンブルを制御する。
すると、この部分空間上の目的関数のクラスを、解がグラウンド化に不変であるものとして特定し、最適ゼロショット移動をもたらす。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Path Planning in Dynamic Environments using Generative RNNs and Monte
Carlo Tree Search [11.412720572948086]
群衆や交通などの動的環境におけるロボット経路計画のための最先端の手法は、エージェントのための手作りのモーションモデルに依存している。
本稿では,モンテカルロ木探索(MCTS)における生成的リカレントニューラルネットワークを用いた統合経路計画フレームワークを提案する。
提案手法は,対話時の動作予測精度を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2020-01-30T22:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。