論文の概要: Hierarchical Policy Blending As Optimal Transport
- arxiv url: http://arxiv.org/abs/2212.01938v1
- Date: Sun, 4 Dec 2022 22:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 19:37:07.119138
- Title: Hierarchical Policy Blending As Optimal Transport
- Title(参考訳): 最適輸送としての階層的政策
- Authors: An T. Le, Kay Hansel, Jan Peters, Georgia Chalvatzaki
- Abstract要約: 最適輸送(HiPBOT)としての階層的政策ブレンディングについて述べる。
HiPBOTは、低レベルのリアクティブ専門家ポリシーの重みに適応し、専門家ポリシーとエージェントのプロダクトのパラメータ空間にルックアヘッド計画層を追加します。
我々の高レベルプランナーは、バランスの取れない最適輸送による政策ブレンディングを実現する。
- 参考スコア(独自算出の注目度): 34.25379651790627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present hierarchical policy blending as optimal transport (HiPBOT). This
hierarchical framework adapts the weights of low-level reactive expert
policies, adding a look-ahead planning layer on the parameter space of a
product of expert policies and agents. Our high-level planner realizes a policy
blending via unbalanced optimal transport, consolidating the scaling of
underlying Riemannian motion policies, effectively adjusting their Riemannian
matrix, and deciding over the priorities between experts and agents,
guaranteeing safety and task success. Our experimental results in a range of
application scenarios from low-dimensional navigation to high-dimensional
whole-body control showcase the efficacy and efficiency of HiPBOT, which
outperforms state-of-the-art baselines that either perform probabilistic
inference or define a tree structure of experts, paving the way for new
applications of optimal transport to robot control. More material at
https://sites.google.com/view/hipobot
- Abstract(参考訳): 最適輸送 (HiPBOT) として階層的政策ブレンディングを提案する。
この階層的なフレームワークは、低レベルのリアクティブなエキスパートポリシーの重みに適応し、エキスパートポリシーとエージェントのプロダクトのパラメータ空間にルックアヘッド計画層を追加します。
我々のハイレベルプランナーは,不均衡な最適輸送,基盤となるリーマン運動政策のスケーリングの統合,リーマン行列の効果的な調整,専門家とエージェント間の優先順位決定,安全性とタスク成功の保証などを通じて,政策のブレンドを実現する。
低次元ナビゲーションから高次元全身制御まで多岐にわたる応用シナリオの結果から,ロボット制御への最適輸送の新たな応用への道を開くとともに,確率的推論を行うか,専門家のツリー構造を定義する最先端ベースラインを上回るhipbotの有効性と効率を示す。
詳細はhttps://sites.google.com/view/hipobotを参照。
関連論文リスト
- Research on reinforcement learning based warehouse robot navigation algorithm in complex warehouse layout [13.945240113332352]
本稿では, PPO と Dijkstra のアルゴリズム, Proximal Policy-Dijkstra (PP-D) の新たな手法を提案する。
PP-D法はPPOによる効率的な戦略学習とリアルタイム意思決定を実現し,Dijkstraアルゴリズムを用いてグローバル最適経路を計画する。
論文 参考訳(メタデータ) (2024-11-09T09:44:03Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Adversarial Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
ディープニューラルネットワークで表されるポリシーは過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
本稿では、上記の問題を緩和し、学習ポリシーの効率を向上させるための新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T21:01:08Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Hierarchical Policy Blending as Inference for Reactive Robot Control [21.058662668187875]
ぼんやりした、密集した、ダイナミックな環境における運動生成は、ロボット工学における中心的なトピックである。
反応ポリシーと計画の利点を組み合わせた階層的な動き生成手法を提案する。
平面ナビゲーションと6DoF操作の実験的研究により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。
論文 参考訳(メタデータ) (2022-10-14T15:16:54Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。