論文の概要: Hierarchical Policy Blending As Optimal Transport
- arxiv url: http://arxiv.org/abs/2212.01938v3
- Date: Wed, 12 Apr 2023 09:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 18:16:17.878353
- Title: Hierarchical Policy Blending As Optimal Transport
- Title(参考訳): 最適輸送としての階層的政策
- Authors: An T. Le, Kay Hansel, Jan Peters, Georgia Chalvatzaki
- Abstract要約: 最適輸送(HiPBOT)としての階層的政策ブレンディングについて述べる。
HiPBOTは、パラメータ空間にルックアヘッド計画層を追加することで、異なるエージェントの低レベルのリアクティブ専門家ポリシーの重みを階層的に調整する。
その結果、HiPBOTは専門家ポリシーとエージェントの優先順位を効果的に決定し、タスクの成功を確実にし、安全性を保証する。
- 参考スコア(独自算出の注目度): 34.25379651790627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present hierarchical policy blending as optimal transport (HiPBOT). HiPBOT
hierarchically adjusts the weights of low-level reactive expert policies of
different agents by adding a look-ahead planning layer on the parameter space.
The high-level planner renders policy blending as unbalanced optimal transport
consolidating the scaling of the underlying Riemannian motion policies. As a
result, HiPBOT effectively decides the priorities between expert policies and
agents, ensuring the task's success and guaranteeing safety. Experimental
results in several application scenarios, from low-dimensional navigation to
high-dimensional whole-body control, show the efficacy and efficiency of
HiPBOT. Our method outperforms state-of-the-art baselines -- either adopting
probabilistic inference or defining a tree structure of experts -- paving the
way for new applications of optimal transport to robot control. More material
at https://sites.google.com/view/hipobot
- Abstract(参考訳): 最適輸送 (HiPBOT) として階層的政策ブレンディングを提案する。
hipbotはパラメータ空間にルックアヘッド計画層を追加することで、さまざまなエージェントの低レベルのリアクティブエキスパートポリシの重み付けを階層的に調整する。
高レベルプランナーは、基礎となるリーマン運動ポリシーのスケーリングを統一する不均衡な最適輸送としてポリシーブレンディングを行う。
その結果、HiPBOTは専門家ポリシーとエージェントの優先順位を効果的に決定し、タスクの成功と安全性を保証する。
低次元ナビゲーションから高次元全体制御に至るまで、いくつかの応用シナリオにおける実験結果から、HiPBOTの有効性と効率が示された。
我々の手法は、確率的推論を採用するか、専門家のツリー構造を定義するかのどちらかで、最先端のベースラインよりも優れている。
詳細はhttps://sites.google.com/view/hipobotを参照。
関連論文リスト
- Research on reinforcement learning based warehouse robot navigation algorithm in complex warehouse layout [13.945240113332352]
本稿では, PPO と Dijkstra のアルゴリズム, Proximal Policy-Dijkstra (PP-D) の新たな手法を提案する。
PP-D法はPPOによる効率的な戦略学習とリアルタイム意思決定を実現し,Dijkstraアルゴリズムを用いてグローバル最適経路を計画する。
論文 参考訳(メタデータ) (2024-11-09T09:44:03Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Adversarial Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
ディープニューラルネットワークで表されるポリシーは過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
本稿では、上記の問題を緩和し、学習ポリシーの効率を向上させるための新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T21:01:08Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Hierarchical Policy Blending as Inference for Reactive Robot Control [21.058662668187875]
ぼんやりした、密集した、ダイナミックな環境における運動生成は、ロボット工学における中心的なトピックである。
反応ポリシーと計画の利点を組み合わせた階層的な動き生成手法を提案する。
平面ナビゲーションと6DoF操作の実験的研究により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。
論文 参考訳(メタデータ) (2022-10-14T15:16:54Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。