論文の概要: Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.12030v1
- Date: Fri, 24 Jun 2022 01:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 03:52:51.115399
- Title: Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned
Reinforcement Learning
- Title(参考訳): スパース・リワードゴール・コンディション強化学習のためのファシック自己帰納的還元
- Authors: Yunfei Li, Tian Gao, Jiaqi Yang, Huazhe Xu, Yi Wu
- Abstract要約: スパース逆ゴール条件問題に対処するために,オンラインRLとオフラインSLを交互に組み合わせた新しいファシックアプローチを提案する。
我々は、このアルゴリズムをPAIR(PhAsic Self-Imitative Reduction)と呼ぶ。PAIRは、スパースリワード目標条件のロボット制御問題において、非ファシックRLとファシックSLのベースラインの両方を著しく上回っている。
- 参考スコア(独自算出の注目度): 41.340196224496125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been a recent trend to leverage the power of supervised learning (SL)
towards more effective reinforcement learning (RL) methods. We propose a novel
phasic approach by alternating online RL and offline SL for tackling
sparse-reward goal-conditioned problems. In the online phase, we perform RL
training and collect rollout data while in the offline phase, we perform SL on
those successful trajectories from the dataset. To further improve sample
efficiency, we adopt additional techniques in the online phase including task
reduction to generate more feasible trajectories and a value-difference-based
intrinsic reward to alleviate the sparse-reward issue. We call this overall
algorithm, PhAsic self-Imitative Reduction (PAIR). PAIR substantially
outperforms both non-phasic RL and phasic SL baselines on sparse-reward
goal-conditioned robotic control problems, including a challenging stacking
task. PAIR is the first RL method that learns to stack 6 cubes with only 0/1
success rewards from scratch.
- Abstract(参考訳): 近年, 教師あり学習(SL)の力を利用して, より効果的な強化学習(RL)手法が開発されている。
スパース逆ゴール条件問題に対処するために,オンラインRLとオフラインSLを交互に組み合わせた新しいファシックアプローチを提案する。
オンラインフェーズでは、RLトレーニングを行い、オフラインフェーズでロールアウトデータを収集し、データセットから成功した軌道上でSLを実行する。
サンプル効率をさらに向上するため,より実現可能な軌道生成のためのタスク削減や,スパース・リワード問題を緩和するためのバリュー・ディファレンスに基づく本質的報酬など,オンラインフェーズでの追加技術を採用する。
我々はこのアルゴリズムをPhAsic Self-Imitative Reduction (PAIR)と呼ぶ。
PAIRは、難解な積み重ねタスクを含むスパースリワード目標条件のロボット制御問題において、非ファシックなRLとファシックなSLベースラインの両方を大幅に上回っている。
PAIRは、ゼロから0/1の成功報酬しか持たない6つのキューブを積み重ねることを学ぶ最初のRLメソッドである。
関連論文リスト
- Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling [0.9831489366502301]
ジョブショップスケジューリング問題(JSSP)の新しいアプローチであるオフライン強化学習(Offline-LD)について紹介する。
Offline-LDは2つのCQLベースのQ-ラーニング手法をマスク可能なアクション空間に適用し、離散SACのための新しいエントロピーボーナス修正を導入し、前処理による報酬正規化を活用する。
実験の結果,Offline-LDは生成されたインスタンスとベンチマークインスタンスの両方でオンラインRLを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-16T15:18:10Z) - Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。
教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。
我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文 参考訳(メタデータ) (2024-05-22T13:39:33Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。