論文の概要: Composable Energy Policies for Reactive Motion Generation and
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.04962v1
- Date: Tue, 11 May 2021 11:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 19:48:06.288158
- Title: Composable Energy Policies for Reactive Motion Generation and
Reinforcement Learning
- Title(参考訳): 反応運動生成と強化学習のための構成可能エネルギー政策
- Authors: Julen Urain, Anqi Li, Puze Liu, Carlo D'Eramo, Jan Peters
- Abstract要約: モジュラーモーション生成のための新しいフレームワークであるComposable Energy Policies(CEP)を紹介します。
CEPは、一連のリアクティブポリシーの製品に対する最適化によってコントロールアクションを計算する。
CEPは自然に強化学習の問題に適応し、階層的な方法で、以前はどんな分布でも統合できるようにします。
- 参考スコア(独自算出の注目度): 25.498555742173323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reactive motion generation problems are usually solved by computing actions
as a sum of policies. However, these policies are independent of each other and
thus, they can have conflicting behaviors when summing their contributions
together. We introduce Composable Energy Policies (CEP), a novel framework for
modular reactive motion generation. CEP computes the control action by
optimization over the product of a set of stochastic policies. This product of
policies will provide a high probability to those actions that satisfy all the
components and low probability to the others. Optimizing over the product of
the policies avoids the detrimental effect of conflicting behaviors between
policies choosing an action that satisfies all the objectives. Besides, we show
that CEP naturally adapts to the Reinforcement Learning problem allowing us to
integrate, in a hierarchical fashion, any distribution as prior, from
multimodal distributions to non-smooth distributions and learn a new policy
given them.
- Abstract(参考訳): 反応運動生成問題は、通常、ポリシーの集合として計算アクションによって解決される。
しかし、これらの方針は互いに独立しており、貢献をまとめる際に矛盾する行動をとることができる。
モジュール型リアクティブモーション生成のための新しいフレームワークであるComposable Energy Policies (CEP)を紹介する。
CEPは一連の確率的ポリシーの積に対する最適化によって制御動作を計算する。
このポリシーの産物は、すべてのコンポーネントを満たすアクションに高い確率を提供し、他のコンポーネントに低い確率を提供する。
ポリシーの製品よりも最適化することは、すべての目的を満たすアクションを選択するポリシー間の相反する行動の有害な効果を避ける。
さらに,CEPは自然に強化学習問題に適応し,マルチモーダル分布から非スムース分布へ,階層的,あらゆる分布を前もって統合し,与えられた新しいポリシーを学習することができることを示す。
関連論文リスト
- Adaptive Opponent Policy Detection in Multi-Agent MDPs: Real-Time Strategy Switch Identification Using Running Error Estimation [1.079960007119637]
OPS-DeMoは、動的エラー減衰を利用して相手のポリシーの変更を検出するオンラインアルゴリズムである。
提案手法は,プレデター・プレイ設定のような動的シナリオにおいて,PPO学習モデルよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T17:34:44Z) - Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming
for Policy Optimization in Mixed Discrete-Continuous MDPs [23.87856533426793]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理や貯水池のシステム管理など,多様な分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees [8.610425739792284]
RLにおける非政治政策最適化の領域を再考する。
一般的に使用されるアプローチの1つは、代理目的を最適化するために、政治外の政策勾配を活用することである。
このアプローチは、分散ミスマッチの問題に悩まされていることが示されている。
論文 参考訳(メタデータ) (2022-12-10T07:47:04Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。