論文の概要: Bias Resilient Multi-Step Off-Policy Goal-Conditioned Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2311.17565v1
- Date: Wed, 29 Nov 2023 11:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:31:27.789675
- Title: Bias Resilient Multi-Step Off-Policy Goal-Conditioned Reinforcement
Learning
- Title(参考訳): バイアスレジリエントな多段階オフポリシー目標条件強化学習
- Authors: Lisheng Wu and Ke Chen
- Abstract要約: 目標条件強化学習(GCRL)では、スパース報酬は重要な課題を示し、しばしば効率的な学習を妨げる。
本稿では,これらのバイアスを深く掘り下げて,これらを「シューティング」と「シフト」の2つのカテゴリに分類する。
我々は,これらのバイアスの正の面に乗じて,その欠点を最小限に抑えつつ,GCRLの高速化により大きなステップサイズを用いることが可能なソリューションを提案する。
- 参考スコア(独自算出の注目度): 6.540225358657128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In goal-conditioned reinforcement learning (GCRL), sparse rewards present
significant challenges, often obstructing efficient learning. Although
multi-step GCRL can boost this efficiency, it can also lead to off-policy
biases in target values. This paper dives deep into these biases, categorizing
them into two distinct categories: "shooting" and "shifting". Recognizing that
certain behavior policies can hasten policy refinement, we present solutions
designed to capitalize on the positive aspects of these biases while minimizing
their drawbacks, enabling the use of larger step sizes to speed up GCRL. An
empirical study demonstrates that our approach ensures a resilient and robust
improvement, even in ten-step learning scenarios, leading to superior learning
efficiency and performance that generally surpass the baseline and several
state-of-the-art multi-step GCRL benchmarks.
- Abstract(参考訳): 目標条件強化学習(GCRL)では、スパース報酬は重要な課題を示し、しばしば効率的な学習を妨げる。
マルチステップのGCRLはこの効率を高めることができるが、ターゲット値の非政治バイアスにつながることもある。
この論文はこれらのバイアスを深く掘り下げ、それらを「シューティング」と「シフト」の2つのカテゴリに分類する。
特定の行動方針が政策改善を早める可能性があることを認識し、これらのバイアスの正の側面に乗じて、その欠点を最小限に抑え、より大きなステップサイズでGCRLを高速化するソリューションを提案する。
実証実験により,10段階の学習シナリオにおいても,我々のアプローチは弾力性と堅牢性の向上を保証し,ベースラインと最先端のGCRLベンチマークを概ね上回る優れた学習効率と性能をもたらすことが示された。
関連論文リスト
- SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Adversarially Guided Subgoal Generation for Hierarchical Reinforcement
Learning [5.514236598436977]
本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。
最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-01-24T12:30:38Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Reinforcement Learning using Guided Observability [26.307025803058714]
強化学習を部分的な可観測性に対処するためのシンプルで効率的なアプローチを提案します。
トレーニングプロセス中の完全な可観測性から部分可観測性へのスムーズな移行は、高いパフォーマンスポリシをもたらします。
離散部分可観測性Markov決定プロセス(POMDP)ベンチマーク問題および連続部分可観測性MuJoCoおよびOpenAIジムタスクにおける包括的な評価は、PO-GRLがパフォーマンスを向上させることを示しています。
論文 参考訳(メタデータ) (2021-04-22T10:47:35Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - What Matters In On-Policy Reinforcement Learning? A Large-Scale
Empirical Study [50.79125250286453]
オンライン強化学習(RL)は、様々な連続制御タスクにうまく適用されている。
しかし、最先端の実装は、結果のエージェントのパフォーマンスに強く影響を与える、多数の低レベルかつ高レベルの設計決定を下します。
これらの選択は通常、文献で広く議論されることはなく、アルゴリズムの公開記述とそれらの実装の間に相違が生じている。
我々は,「50以上の選択肢」を統一型オンラインRLフレームワークに実装し,大規模な実証研究におけるその影響を調査する。
論文 参考訳(メタデータ) (2020-06-10T17:59:03Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Accelerating Reinforcement Learning with a
Directional-Gaussian-Smoothing Evolution Strategy [3.404507240556492]
進化戦略 (ES) は多くの困難強化学習 (RL) タスクにおいて大きな期待が持たれている。
現在のESプラクティスには2つの制限があり、そうでなければそのさらなる能力を妨げる可能性がある。
本研究では、DGS-ES(Directional Gaussian Smoothing Evolutionary Strategy)を用いてRL訓練を加速する。
DGS-ESは高いスケーラビリティを持ち、ウォールクロック時間に優れており、他の一般的な政策勾配やESアプローチと競合する報酬スコアが得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T01:05:57Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z) - Reinforcement Learning via Fenchel-Rockafellar Duality [97.86417365464068]
凸双対性の基本概念を概観し、非常に一般的で非常に有用なフェンシェル・ロッカフェラー双対性に焦点をあてる。
この双対性は、政策評価や最適化、オンラインまたはオフライン学習、割引または未公表の報酬など、さまざまな強化学習設定にどのように適用できるかを要約する。
論文 参考訳(メタデータ) (2020-01-07T02:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。