論文の概要: PFPN: Continuous Control of Physically Simulated Characters using
Particle Filtering Policy Network
- arxiv url: http://arxiv.org/abs/2003.06959v4
- Date: Fri, 1 Oct 2021 14:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 02:56:09.007111
- Title: PFPN: Continuous Control of Physically Simulated Characters using
Particle Filtering Policy Network
- Title(参考訳): pfpn:パーティクルフィルタリング・ポリシー・ネットワークを用いた物理シミュレーションキャラクタの連続制御
- Authors: Pei Xu and Ioannis Karamouzas
- Abstract要約: 本稿では,粒子に基づく行動政策をガウス政策の代替とみなす枠組みを提案する。
本手法が様々なモーションキャプチャー模倣タスクに適用可能であることを実証する。
- 参考スコア(独自算出の注目度): 0.9137554315375919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven methods for physics-based character control using reinforcement
learning have been successfully applied to generate high-quality motions.
However, existing approaches typically rely on Gaussian distributions to
represent the action policy, which can prematurely commit to suboptimal actions
when solving high-dimensional continuous control problems for
highly-articulated characters. In this paper, to improve the learning
performance of physics-based character controllers, we propose a framework that
considers a particle-based action policy as a substitute for Gaussian policies.
We exploit particle filtering to dynamically explore and discretize the action
space, and track the posterior policy represented as a mixture distribution.
The resulting policy can replace the unimodal Gaussian policy which has been
the staple for character control problems, without changing the underlying
model architecture of the reinforcement learning algorithm used to perform
policy optimization. We demonstrate the applicability of our approach on
various motion capture imitation tasks. Baselines using our particle-based
policies achieve better imitation performance and speed of convergence as
compared to corresponding implementations using Gaussians, and are more robust
to external perturbations during character control. Related code is available
at: https://motion-lab.github.io/PFPN.
- Abstract(参考訳): 強化学習を用いた物理ベースのキャラクタ制御のためのデータ駆動手法が,高品質な動作の生成に有効である。
しかし、既存のアプローチは一般的に行動ポリシーを表現するためにガウス分布に依存しており、高調波文字に対する高次元連続制御問題を解く際には、早い段階で最適な行動にコミットすることができる。
本稿では,物理系文字制御器の学習性能を向上させるために,粒子系アクションポリシーをガウス政策の代替とみなす枠組みを提案する。
粒子フィルタリングを利用して, 作用空間を動的に探索し, 識別し, 混合分布として表される後方政策を追跡する。
結果として得られたポリシーは、ポリシー最適化に使用される強化学習アルゴリズムの基盤となるモデルアーキテクチャを変更することなく、文字制御問題の根幹をなす一元的なガウスポリシーを置き換えることができる。
提案手法が様々なモーションキャプチャ模倣タスクに適用可能であることを示す。
我々のパーティクルベースのポリシーを用いたベースラインは、ガウスを用いた実装と比較して、より優れた模倣性能と収束速度を実現し、文字制御中の外部摂動に対してより堅牢である。
関連コードはhttps://motion-lab.github.io/pfpn.com/。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies [0.0]
ポリシー最適化は、タスク固有の目的の関数としてロボットポリシーを適用するための、事実上のパラダイムである。
本稿では,最適輸送問題として政策最適化を適用することで,確率的政策の構造を活用することを提案する。
我々は,ロボットの動作の到達,衝突回避行動,マルチゴールタスクなど,一般的なロボット設定に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-17T17:48:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Adversarially Regularized Policy Learning Guided by Trajectory
Optimization [31.122262331980153]
本稿では,スムーズな制御ポリシーを学習するために,trajeCtory optimizAtion (VERONICA) でガイドされた適応正規化 pOlicy learNIng を提案する。
提案手法は,ニューラルポリシー学習のサンプル効率を向上し,各種障害に対するポリシーの堅牢性を高める。
論文 参考訳(メタデータ) (2021-09-16T00:02:11Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward
Model [24.030426634281643]
連続制御タスクでは、ガウス分布を用いた広く使われているポリシーは、環境の非効率な探索をもたらす。
本稿では,ポリシの表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズムGenerative Actor-Criticを提案する。
プッシュフォワードポリシには,マルチモーダリティなどの望ましい特徴があり,アルゴリズムの探索と性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:29:20Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。