論文の概要: Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning
- arxiv url: http://arxiv.org/abs/2310.11731v1
- Date: Wed, 18 Oct 2023 06:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:37:31.668924
- Title: Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning
- Title(参考訳): ロボットスキル学習のためのアクション量子オフライン強化学習
- Authors: Jianlan Luo, Perry Dong, Jeffrey Wu, Aviral Kumar, Xinyang Geng,
Sergey Levine
- Abstract要約: オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 68.16998247593209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The offline reinforcement learning (RL) paradigm provides a general recipe to
convert static behavior datasets into policies that can perform better than the
policy that collected the data. While policy constraints, conservatism, and
other methods for mitigating distributional shifts have made offline
reinforcement learning more effective, the continuous action setting often
necessitates various approximations for applying these techniques. Many of
these challenges are greatly alleviated in discrete action settings, where
offline RL constraints and regularizers can often be computed more precisely or
even exactly. In this paper, we propose an adaptive scheme for action
quantization. We use a VQ-VAE to learn state-conditioned action quantization,
avoiding the exponential blowup that comes with na\"ive discretization of the
action space. We show that several state-of-the-art offline RL methods such as
IQL, CQL, and BRAC improve in performance on benchmarks when combined with our
proposed discretization scheme. We further validate our approach on a set of
challenging long-horizon complex robotic manipulation tasks in the Robomimic
environment, where our discretized offline RL algorithms are able to improve
upon their continuous counterparts by 2-3x. Our project page is at
https://saqrl.github.io/
- Abstract(参考訳): オフライン強化学習(RL)パラダイムは、静的な行動データセットをデータ収集ポリシーよりも優れたパフォーマンスのポリシーに変換する一般的なレシピを提供する。
政策制約、保守主義、その他の分散シフトを緩和する手法はオフライン強化学習をより効果的にしたが、連続的な行動設定はこれらの手法を適用するために様々な近似を必要とすることが多い。
これらの課題の多くは、オフラインのrl制約や正規化子をより正確に、あるいは正確に計算できる個別のアクション設定で大幅に軽減される。
本稿では,アクション量子化のための適応スキームを提案する。
VQ-VAE を用いて状態条件の作用量子化を学習し、作用空間の na\" な離散化を伴う指数的爆発を避ける。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
さらに,ロボミミック環境におけるロボット操作の課題に対するアプローチを検証し,識別されたオフラインRLアルゴリズムを2~3倍の精度で改善できることを示す。
プロジェクトページはhttps://saqrl.github.io/にあります。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T05:20:57Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。