論文の概要: Rethinking Goal-conditioned Supervised Learning and Its Connection to
Offline RL
- arxiv url: http://arxiv.org/abs/2202.04478v1
- Date: Wed, 9 Feb 2022 14:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 14:20:09.613849
- Title: Rethinking Goal-conditioned Supervised Learning and Its Connection to
Offline RL
- Title(参考訳): ゴール条件付き指導学習の再考とオフラインRLとの関係
- Authors: Rui Yang, Yiming Lu, Wenzhe Li, Hao Sun, Meng Fang, Yali Du, Xiu Li,
Lei Han, Chongjie Zhang
- Abstract要約: Goal-Conditioned Supervised Learning (GCSL)は、自己生成体験を反復的に再現して、新たな学習フレームワークを提供する。
我々はGCSLを新しいオフラインゴール条件付きRLアルゴリズムとして拡張する。
WGCSLはGCSLと既存の最先端のオフラインメソッドを一貫して上回ります。
- 参考スコア(独自算出の注目度): 49.26825108780872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving goal-conditioned tasks with sparse rewards using self-supervised
learning is promising because of its simplicity and stability over current
reinforcement learning (RL) algorithms. A recent work, called Goal-Conditioned
Supervised Learning (GCSL), provides a new learning framework by iteratively
relabeling and imitating self-generated experiences. In this paper, we revisit
the theoretical property of GCSL -- optimizing a lower bound of the goal
reaching objective, and extend GCSL as a novel offline goal-conditioned RL
algorithm. The proposed method is named Weighted GCSL (WGCSL), in which we
introduce an advanced compound weight consisting of three parts (1) discounted
weight for goal relabeling, (2) goal-conditioned exponential advantage weight,
and (3) best-advantage weight. Theoretically, WGCSL is proved to optimize an
equivalent lower bound of the goal-conditioned RL objective and generates
monotonically improved policies via an iterated scheme. The monotonic property
holds for any behavior policies, and therefore WGCSL can be applied to both
online and offline settings. To evaluate algorithms in the offline
goal-conditioned RL setting, we provide a benchmark including a range of point
and simulated robot domains. Experiments in the introduced benchmark
demonstrate that WGCSL can consistently outperform GCSL and existing
state-of-the-art offline methods in the fully offline goal-conditioned setting.
- Abstract(参考訳): 現在の強化学習(RL)アルゴリズムよりも単純で安定性が高いことから,自己教師付き学習を用いた疎度な報酬による目標条件付きタスクの解決が期待できる。
Goal-Conditioned Supervised Learning (GCSL)と呼ばれる最近の研究は、自己生成した経験を反復的に再現し、新しい学習フレームワークを提供する。
本稿では,目標到達目標の低限界を最適化するGCSLの理論的特性を再検討し,新しいオフライン目標条件付きRLアルゴリズムとしてGCSLを拡張した。
提案手法はWGCSL (Weighted GCSL) と命名され,(1)目標達成のためのディスカウント重量,(2)目標条件の指数的優位重量,(3)最良アドバンテージ重量の3つの部分からなる高度な複合重量を導入する。
理論的には、wgcslは目標条件付きrl目標の等価な下限を最適化し、反復スキームによって単調に改善されたポリシーを生成することが証明されている。
モノトニックなプロパティはいかなる行動ポリシーも保持するので、WGCSLはオンラインとオフラインの両方の設定に適用できる。
オフラインの目標条件付きrl設定でアルゴリズムを評価するために,点領域とシミュレーションロボット領域を含むベンチマークを提供する。
紹介されたベンチマークでは、WGCSLがGCSLと既存の最先端のオフラインメソッドを、完全にオフラインのゴール条件設定で一貫して上回ることを示した。
関連論文リスト
- OGBench: Benchmarking Offline Goal-Conditioned RL [72.00291801676684]
オフライン目標条件強化学習(GCRL)は強化学習における大きな問題である。
オフラインゴール条件RLにおけるアルゴリズム研究のための,新しい高品質なベンチマークであるOGBenchを提案する。
論文 参考訳(メタデータ) (2024-10-26T06:06:08Z) - Q-WSL: Optimizing Goal-Conditioned RL with Weighted Supervised Learning via Dynamic Programming [22.359171999254706]
GoalConditioned Weighted Supervised Learning (GCWSL)と呼ばれる新しい高度なアルゴリズムのクラスが最近登場し、ゴール条件強化学習(RL)におけるスパース報酬による課題に対処している。
GCWSLは、その単純さ、有効性、安定性のために、さまざまな目標達成タスクに対して、一貫して強力なパフォーマンスを提供します。
しかし、GCWSL法は軌道縫合(trajectory stitching)として知られる重要な機能に欠けており、テスト中に目に見えないスキルに直面した場合に最適なポリシーを学ぶのに不可欠である。
本稿では,GCの限界を克服する新しいフレームワークであるQ-learning Weighted Supervised Learning (Q-WSL)を提案する。
論文 参考訳(メタデータ) (2024-10-09T08:00:12Z) - Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T05:20:57Z) - SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Goal-Conditioned Supervised Learning with Sub-Goal Prediction [24.172457177786523]
本稿では,目標条件付き強化学習に取り組むために,トラジェクティブ反復学習器(TraIL)を提案する。
TraILはさらに、トラジェクトリの情報を活用し、それを学習に使用してアクションとサブゴールの両方を予測する。
いくつかの一般的な問題設定では、実際の目標を予測されたTraILサブゴールに置き換えることで、エージェントはより多くの目標状態に到達することができる。
論文 参考訳(メタデータ) (2023-05-17T12:54:58Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - Provably Efficient Offline Goal-Conditioned Reinforcement Learning with
General Function Approximation and Single-Policy Concentrability [11.786486763236104]
ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。
オフラインのGCRLは、トレーニングタスクを実行するために純粋にコンパイル済みのデータセットのみを必要とする。
修正されたオフラインGCRLアルゴリズムは、一般関数近似と単一政治集中性の両方で有効であることを示す。
論文 参考訳(メタデータ) (2023-02-07T22:04:55Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文 参考訳(メタデータ) (2022-08-17T08:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。