論文の概要: Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.12030v1
- Date: Fri, 24 Jun 2022 01:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 03:52:51.115399
- Title: Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned
Reinforcement Learning
- Title(参考訳): スパース・リワードゴール・コンディション強化学習のためのファシック自己帰納的還元
- Authors: Yunfei Li, Tian Gao, Jiaqi Yang, Huazhe Xu, Yi Wu
- Abstract要約: スパース逆ゴール条件問題に対処するために,オンラインRLとオフラインSLを交互に組み合わせた新しいファシックアプローチを提案する。
我々は、このアルゴリズムをPAIR(PhAsic Self-Imitative Reduction)と呼ぶ。PAIRは、スパースリワード目標条件のロボット制御問題において、非ファシックRLとファシックSLのベースラインの両方を著しく上回っている。
- 参考スコア(独自算出の注目度): 41.340196224496125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been a recent trend to leverage the power of supervised learning (SL)
towards more effective reinforcement learning (RL) methods. We propose a novel
phasic approach by alternating online RL and offline SL for tackling
sparse-reward goal-conditioned problems. In the online phase, we perform RL
training and collect rollout data while in the offline phase, we perform SL on
those successful trajectories from the dataset. To further improve sample
efficiency, we adopt additional techniques in the online phase including task
reduction to generate more feasible trajectories and a value-difference-based
intrinsic reward to alleviate the sparse-reward issue. We call this overall
algorithm, PhAsic self-Imitative Reduction (PAIR). PAIR substantially
outperforms both non-phasic RL and phasic SL baselines on sparse-reward
goal-conditioned robotic control problems, including a challenging stacking
task. PAIR is the first RL method that learns to stack 6 cubes with only 0/1
success rewards from scratch.
- Abstract(参考訳): 近年, 教師あり学習(SL)の力を利用して, より効果的な強化学習(RL)手法が開発されている。
スパース逆ゴール条件問題に対処するために,オンラインRLとオフラインSLを交互に組み合わせた新しいファシックアプローチを提案する。
オンラインフェーズでは、RLトレーニングを行い、オフラインフェーズでロールアウトデータを収集し、データセットから成功した軌道上でSLを実行する。
サンプル効率をさらに向上するため,より実現可能な軌道生成のためのタスク削減や,スパース・リワード問題を緩和するためのバリュー・ディファレンスに基づく本質的報酬など,オンラインフェーズでの追加技術を採用する。
我々はこのアルゴリズムをPhAsic Self-Imitative Reduction (PAIR)と呼ぶ。
PAIRは、難解な積み重ねタスクを含むスパースリワード目標条件のロボット制御問題において、非ファシックなRLとファシックなSLベースラインの両方を大幅に上回っている。
PAIRは、ゼロから0/1の成功報酬しか持たない6つのキューブを積み重ねることを学ぶ最初のRLメソッドである。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [55.47037858773641]
本稿では,Ensemble-based Offline-to-Online (E2O) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,E2Oは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。