論文の概要: Swapped goal-conditioned offline reinforcement learning
- arxiv url: http://arxiv.org/abs/2302.08865v1
- Date: Fri, 17 Feb 2023 13:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:54:09.128935
- Title: Swapped goal-conditioned offline reinforcement learning
- Title(参考訳): 目標条件付きオフライン強化学習
- Authors: Wenyan Yang, Huiling Wang, Dingding Cai, Joni Pajarinen, Joni-Kristen
K\"am\"ar\"ainen
- Abstract要約: 本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。
実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
- 参考スコア(独自算出の注目度): 8.284193221280216
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) can be challenging due
to overfitting to the given dataset. To generalize agents' skills outside the
given dataset, we propose a goal-swapping procedure that generates additional
trajectories. To alleviate the problem of noise and extrapolation errors, we
present a general offline reinforcement learning method called deterministic
Q-advantage policy gradient (DQAPG). In the experiments, DQAPG outperforms
state-of-the-art goal-conditioned offline RL methods in a wide range of
benchmark tasks, and goal-swapping further improves the test results. It is
noteworthy, that the proposed method obtains good performance on the
challenging dexterous in-hand manipulation tasks for which the prior methods
failed.
- Abstract(参考訳): オフライン目標条件強化学習(GCRL)は、与えられたデータセットに過度に適合するため、難しい場合がある。
与えられたデータセットの外でエージェントのスキルを一般化するために、追加の軌跡を生成するゴールスワッピング手順を提案する。
雑音や外挿誤差の問題を緩和するため、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。
実験では、DQAPGは、最先端のゴール条件付きオフラインRLメソッドを幅広いベンチマークタスクで上回り、ゴールスワッピングはテスト結果をさらに改善する。
提案手法は,従来の手法が失敗した手動操作の難易度の高い課題に対して,優れた性能が得られる。
関連論文リスト
- Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T05:20:57Z) - Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - Learning from Sparse Offline Datasets via Conservative Density
Estimation [27.93418377019955]
保守密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEはこの課題に対処し、州が占有する定常分布に明示的に制約を課す。
本手法はD4RLベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T20:42:15Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - A Transferable and Automatic Tuning of Deep Reinforcement Learning for
Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。
Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文 参考訳(メタデータ) (2022-09-19T14:09:07Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。