論文の概要: Bingham Policy Parameterization for 3D Rotations in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2202.03957v1
- Date: Tue, 8 Feb 2022 16:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 14:05:25.714214
- Title: Bingham Policy Parameterization for 3D Rotations in Reinforcement
Learning
- Title(参考訳): 強化学習における3次元回転のビンガムポリシーパラメータ化
- Authors: Stephen James, Pieter Abbeel
- Abstract要約: 強化学習における3次元回転を表現するための新しいポリシーパラメータ化を提案する。
提案したビンガムポリシパラメータ化(BPP)は,ビンガム分布をモデル化し,より良好な回転予測を可能にする。
我々は,ローテーションワフバ問題タスクのBPPと,RLBenchの視覚に基づくロボット操作タスクのセットを評価した。
- 参考スコア(独自算出の注目度): 95.00518278458908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new policy parameterization for representing 3D rotations during
reinforcement learning. Today in the continuous control reinforcement learning
literature, many stochastic policy parameterizations are Gaussian. We argue
that universally applying a Gaussian policy parameterization is not always
desirable for all environments. One such case in particular where this is true
are tasks that involve predicting a 3D rotation output, either in isolation, or
coupled with translation as part of a full 6D pose output. Our proposed Bingham
Policy Parameterization (BPP) models the Bingham distribution and allows for
better rotation (quaternion) prediction over a Gaussian policy parameterization
in a range of reinforcement learning tasks. We evaluate BPP on the rotation
Wahba problem task, as well as a set of vision-based next-best pose robot
manipulation tasks from RLBench. We hope that this paper encourages more
research into developing other policy parameterization that are more suited for
particular environments, rather than always assuming Gaussian.
- Abstract(参考訳): 強化学習中に3次元回転を表現するための新しいポリシーパラメータ化を提案する。
今日、連続制御強化学習文献では、多くの確率的政策パラメータ化はガウス的である。
ガウス政策のパラメータ化を普遍的に適用することは、すべての環境において必ずしも望ましいとは限らない。
このことが特に真実である場合の1つは、独立に3次元回転出力を予測するか、あるいは完全な6次元ポーズ出力の一部として変換と結合するタスクである。
提案するビンガムポリシーパラメータ化(bpp)はビンガム分布をモデル化し,強化学習タスクにおいてガウスポリシーパラメータ化よりも優れた回転(四元数)予測を可能にする。
回転wahba問題タスクのbppを評価するとともに、rlbenchから視覚に基づく次善のポーズロボット操作タスクのセットを評価する。
本論文は,ガウスを常に仮定するよりも,特定の環境に適した他の政策パラメタライゼーションの開発を奨励することを願っている。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Subequivariant Graph Reinforcement Learning in 3D Environments [34.875774768800966]
本稿では,3次元環境における変分グラフRL(Subequivariant Graph RL)という,形態に依存しないRLの新たなセットアップを提案する。
具体的には、まず3D空間でより実用的で挑戦的なベンチマークを新たに導入する。
拡張状態-作用空間上のポリシーを最適化するために,幾何対称性を注入することを提案する。
論文 参考訳(メタデータ) (2023-05-30T11:34:57Z) - Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement
Learning with Domain Randomization [10.789649934346004]
循環政策蒸留法(CPD)という試料効率の高い手法を提案する。
CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。
学習された全ての地域政策は、シム・トゥ・リアル・トランスファーのグローバル・ポリシーに蒸留される。
論文 参考訳(メタデータ) (2022-07-29T09:22:53Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Proximal Policy Optimization with Continuous Bounded Action Space via
the Beta Distribution [0.0]
本研究では,このベータポリシが,OpenAIジムの2つの連続制御タスクに対して,プロキシポリシー最適化アルゴリズムによってトレーニングされた場合の動作について検討する。
両方のタスクにおいて、ベータポリシーはエージェントの最終報酬の観点からはガウスポリシーよりも優れており、トレーニングプロセスの安定性とより高速な収束を示す。
論文 参考訳(メタデータ) (2021-11-03T13:13:00Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Gaussian Process Policy Optimization [0.0]
本稿では,アクターに批判的かつモデルなしの強化学習アルゴリズムを提案する。
ベイズ的パラメータ空間探索法を用いて環境を解く。
ロボットの移動をシミュレートする環境において、現在のアルゴリズムよりも経験的に優れていることが示されています。
論文 参考訳(メタデータ) (2020-03-02T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。