論文の概要: Goal-conditioned Offline Reinforcement Learning through State Space
Partitioning
- arxiv url: http://arxiv.org/abs/2303.09367v1
- Date: Thu, 16 Mar 2023 14:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:14:26.498257
- Title: Goal-conditioned Offline Reinforcement Learning through State Space
Partitioning
- Title(参考訳): 状態空間分割によるゴール条件付きオフライン強化学習
- Authors: Mianchu Wang, Yue Jin and Giovanni Montana
- Abstract要約: オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。
我々は,その利点にもかかわらず,分散シフトやマルチモダリティ問題を完全に解決するには,このアプローチは依然として不十分である,と論じる。
本稿では,帰納的バイアスの新たな源となる相補的優位性に基づく重み付け手法を提案する。
- 参考スコア(独自算出の注目度): 9.049629596156473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) aims to infer sequential decision
policies using only offline datasets. This is a particularly difficult setup,
especially when learning to achieve multiple different goals or outcomes under
a given scenario with only sparse rewards. For offline learning of
goal-conditioned policies via supervised learning, previous work has shown that
an advantage weighted log-likelihood loss guarantees monotonic policy
improvement. In this work we argue that, despite its benefits, this approach is
still insufficient to fully address the distribution shift and multi-modality
problems. The latter is particularly severe in long-horizon tasks where finding
a unique and optimal policy that goes from a state to the desired goal is
challenging as there may be multiple and potentially conflicting solutions. To
tackle these challenges, we propose a complementary advantage-based weighting
scheme that introduces an additional source of inductive bias: given a
value-based partitioning of the state space, the contribution of actions
expected to lead to target regions that are easier to reach, compared to the
final goal, is further increased. Empirically, we demonstrate that the proposed
approach, Dual-Advantage Weighted Offline Goal-conditioned RL (DAWOG),
outperforms several competing offline algorithms in commonly used benchmarks.
Analytically, we offer a guarantee that the learnt policy is never worse than
the underlying behaviour policy.
- Abstract(参考訳): オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。
これは特に難しい設定で、特定のシナリオ下で複数の異なる目標や成果を達成することを学ぶ場合、報酬はわずかである。
教師付き学習による目標条件付き政策のオフライン学習では、ログライクな損失の利点により、単調な政策改善が保証される。
本研究では, 利点にもかかわらず, 分散シフトやマルチモーダリティ問題を完全に解決するには, このアプローチはまだ不十分である,と論じる。
後者は、状態から望ましい目標へと至る、ユニークで最適なポリシーを見つけることが、複数の競合する可能性のあるソリューションが存在する可能性があるため、特に困難である。
これらの課題に対処するため、我々は、帰納的バイアスの新たな源となる補足的優位性に基づく重み付け手法を提案する: 状態空間の値に基づく分割を考えると、最終目標よりも到達しやすい領域に到達することが期待される行動の寄与がさらに増加する。
実験的に,提案手法であるDual-Advantage Weighted Offline Goal-conditioned RL (DAWOG) が,一般的なベンチマークにおいて競合するオフラインアルゴリズムよりも優れていることを示す。
分析的に、学習ポリシーが基礎となる行動ポリシーよりも決して悪くないことを保証する。
関連論文リスト
- Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - SCORE: Spurious COrrelation REduction for Offline Reinforcement Learning [100.78715211319016]
オフライン強化学習は、オンラインインタラクションなしで、事前に収集されたデータセットから最適なポリシーを学ぶことを目的としている。
データセットは基礎となるモデルに関する限られた情報しか含まないため、オフラインRLは急激な相関に弱い。
本稿では,不確実なペナルティを政策評価に組み込むことにより,突発的な相関を低減できる実用的で理論的に保証されたアルゴリズムSCOREを提案する。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [119.8736858597118]
任意の報酬の線形結合によって望ましい最適政策を誘導できない簡単な例を示す。
この仕事は、Lagrange乗算器で状態を強化することによってこの欠点に対処する。
拡張ポリシーを実行しながらデュアルダイナミクスを実行すると、最適なポリシーからアクションを確実にサンプリングするアルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。