論文の概要: Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies
- arxiv url: http://arxiv.org/abs/2305.10411v1
- Date: Wed, 17 May 2023 17:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 14:31:55.785751
- Title: Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies
- Title(参考訳): ガウス混合政策最適化のためのワッサーシュタイン勾配流
- Authors: Hanna Ziesche and Leonel Rozo
- Abstract要約: ポリシー最適化は、タスク固有の目的の関数としてロボットポリシーを適用するための、事実上のパラダイムである。
本稿では,最適輸送問題として政策最適化を適用することで,確率的政策の構造を活用することを提案する。
我々は,ロボットの動作の到達,衝突回避行動,マルチゴールタスクなど,一般的なロボット設定に対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots often rely on a repertoire of previously-learned motion policies for
performing tasks of diverse complexities. When facing unseen task conditions or
when new task requirements arise, robots must adapt their motion policies
accordingly. In this context, policy optimization is the \emph{de facto}
paradigm to adapt robot policies as a function of task-specific objectives.
Most commonly-used motion policies carry particular structures that are often
overlooked in policy optimization algorithms. We instead propose to leverage
the structure of probabilistic policies by casting the policy optimization as
an optimal transport problem. Specifically, we focus on robot motion policies
that build on Gaussian mixture models (GMMs) and formulate the policy
optimization as a Wassertein gradient flow over the GMMs space. This naturally
allows us to constrain the policy updates via the $L^2$-Wasserstein distance
between GMMs to enhance the stability of the policy optimization process.
Furthermore, we leverage the geometry of the Bures-Wasserstein manifold to
optimize the Gaussian distributions of the GMM policy via Riemannian
optimization. We evaluate our approach on common robotic settings: Reaching
motions, collision-avoidance behaviors, and multi-goal tasks. Our results show
that our method outperforms common policy optimization baselines in terms of
task success rate and low-variance solutions.
- Abstract(参考訳): ロボットはしばしば、様々な複雑なタスクを実行するために、前述した動きポリシーのレパートリーに依存する。
目立たないタスク条件に直面したり、新たなタスク要求が発生した場合、ロボットはそれに応じて動作ポリシーを適用する必要がある。
この文脈では、ポリシー最適化はタスク固有の目的の関数としてロボットのポリシーを適用するための \emph{de facto}パラダイムである。
ほとんどの一般的なモーションポリシーは、ポリシー最適化アルゴリズムでしばしば見過ごされる特定の構造を持っている。
代わりに,政策最適化を最適輸送問題として位置づけることで,確率的政策の構造を活用することを提案する。
具体的には,ガウス混合モデル(GMM)に基づくロボット動作ポリシーに注目し,GMM空間上のワッサーテイン勾配流としてポリシー最適化を定式化する。
これにより、GMM間の$L^2$-Wasserstein距離を通じてポリシー更新を制約し、ポリシー最適化プロセスの安定性を高めることができる。
さらに、ビューズ・ワッサーシュタイン多様体の幾何学を利用して、リーマン最適化によるGMMポリシーのガウス分布を最適化する。
我々は,一般的なロボットの動作,衝突回避行動,マルチゴール作業に対するアプローチを評価した。
提案手法は,タスク成功率と低分散解の点で,共通政策最適化基準よりも優れていることを示す。
関連論文リスト
- Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。
実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - PFPN: Continuous Control of Physically Simulated Characters using
Particle Filtering Policy Network [0.9137554315375919]
本稿では,粒子に基づく行動政策をガウス政策の代替とみなす枠組みを提案する。
本手法が様々なモーションキャプチャー模倣タスクに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-03-16T00:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。