論文の概要: Swapped goal-conditioned offline reinforcement learning
- arxiv url: http://arxiv.org/abs/2302.08865v1
- Date: Fri, 17 Feb 2023 13:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:54:09.128935
- Title: Swapped goal-conditioned offline reinforcement learning
- Title(参考訳): 目標条件付きオフライン強化学習
- Authors: Wenyan Yang, Huiling Wang, Dingding Cai, Joni Pajarinen, Joni-Kristen
K\"am\"ar\"ainen
- Abstract要約: 本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。
実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
- 参考スコア(独自算出の注目度): 8.284193221280216
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) can be challenging due
to overfitting to the given dataset. To generalize agents' skills outside the
given dataset, we propose a goal-swapping procedure that generates additional
trajectories. To alleviate the problem of noise and extrapolation errors, we
present a general offline reinforcement learning method called deterministic
Q-advantage policy gradient (DQAPG). In the experiments, DQAPG outperforms
state-of-the-art goal-conditioned offline RL methods in a wide range of
benchmark tasks, and goal-swapping further improves the test results. It is
noteworthy, that the proposed method obtains good performance on the
challenging dexterous in-hand manipulation tasks for which the prior methods
failed.
- Abstract(参考訳): オフライン目標条件強化学習(GCRL)は、与えられたデータセットに過度に適合するため、難しい場合がある。
与えられたデータセットの外でエージェントのスキルを一般化するために、追加の軌跡を生成するゴールスワッピング手順を提案する。
雑音や外挿誤差の問題を緩和するため、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。
実験では、DQAPGは、最先端のゴール条件付きオフラインRLメソッドを幅広いベンチマークタスクで上回り、ゴールスワッピングはテスト結果をさらに改善する。
提案手法は,従来の手法が失敗した手動操作の難易度の高い課題に対して,優れた性能が得られる。
関連論文リスト
- Goal-Conditioned Data Augmentation for Offline Reinforcement Learning [3.5775697416994485]
Goal-cOnditioned Data Augmentation (GODA) は、ゴール条件付き拡散法である。
GODAは、元のオフラインデータセットの包括的な分布表現を学習し、選択的に高いリターン目標を持つ新しいデータを生成する。
我々は,D4RLベンチマークと実世界の課題,特に交通信号制御(TSC)タスクについて実験を行い,GODAの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-29T16:42:30Z) - MGDA: Model-based Goal Data Augmentation for Offline Goal-conditioned Weighted Supervised Learning [23.422157931057498]
Goal-Conditioned Weighted Supervised Learning (GCWSL) と呼ばれる最先端のアルゴリズムが、オフライン目標条件強化学習 (RL) における課題に取り組むために導入された。
GCWSLは、多様な目標達成タスクで優れたパフォーマンスを示し、シンプルで効果的で安定したソリューションを提供しています。
しかし、以前の研究ではGCWSLの限界として、軌跡縫合能力の欠如が指摘されている。
本稿では,モデルに基づく目標データ拡張(MGDA)アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-16T03:25:28Z) - Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling [0.9831489366502301]
ジョブショップスケジューリング問題(JSSP)は複雑な最適化問題である。
オンライン強化学習(RL)は、JSSPの許容可能なソリューションを素早く見つけることで、有望であることを示している。
オフライン強化学習による分散学習(Offline-LD)について紹介する。
論文 参考訳(メタデータ) (2024-09-16T15:18:10Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。