論文の概要: Goal-conditioned Offline Reinforcement Learning through State Space
Partitioning
- arxiv url: http://arxiv.org/abs/2303.09367v1
- Date: Thu, 16 Mar 2023 14:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:14:26.498257
- Title: Goal-conditioned Offline Reinforcement Learning through State Space
Partitioning
- Title(参考訳): 状態空間分割によるゴール条件付きオフライン強化学習
- Authors: Mianchu Wang, Yue Jin and Giovanni Montana
- Abstract要約: オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。
我々は,その利点にもかかわらず,分散シフトやマルチモダリティ問題を完全に解決するには,このアプローチは依然として不十分である,と論じる。
本稿では,帰納的バイアスの新たな源となる相補的優位性に基づく重み付け手法を提案する。
- 参考スコア(独自算出の注目度): 9.049629596156473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) aims to infer sequential decision
policies using only offline datasets. This is a particularly difficult setup,
especially when learning to achieve multiple different goals or outcomes under
a given scenario with only sparse rewards. For offline learning of
goal-conditioned policies via supervised learning, previous work has shown that
an advantage weighted log-likelihood loss guarantees monotonic policy
improvement. In this work we argue that, despite its benefits, this approach is
still insufficient to fully address the distribution shift and multi-modality
problems. The latter is particularly severe in long-horizon tasks where finding
a unique and optimal policy that goes from a state to the desired goal is
challenging as there may be multiple and potentially conflicting solutions. To
tackle these challenges, we propose a complementary advantage-based weighting
scheme that introduces an additional source of inductive bias: given a
value-based partitioning of the state space, the contribution of actions
expected to lead to target regions that are easier to reach, compared to the
final goal, is further increased. Empirically, we demonstrate that the proposed
approach, Dual-Advantage Weighted Offline Goal-conditioned RL (DAWOG),
outperforms several competing offline algorithms in commonly used benchmarks.
Analytically, we offer a guarantee that the learnt policy is never worse than
the underlying behaviour policy.
- Abstract(参考訳): オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。
これは特に難しい設定で、特定のシナリオ下で複数の異なる目標や成果を達成することを学ぶ場合、報酬はわずかである。
教師付き学習による目標条件付き政策のオフライン学習では、ログライクな損失の利点により、単調な政策改善が保証される。
本研究では, 利点にもかかわらず, 分散シフトやマルチモーダリティ問題を完全に解決するには, このアプローチはまだ不十分である,と論じる。
後者は、状態から望ましい目標へと至る、ユニークで最適なポリシーを見つけることが、複数の競合する可能性のあるソリューションが存在する可能性があるため、特に困難である。
これらの課題に対処するため、我々は、帰納的バイアスの新たな源となる補足的優位性に基づく重み付け手法を提案する: 状態空間の値に基づく分割を考えると、最終目標よりも到達しやすい領域に到達することが期待される行動の寄与がさらに増加する。
実験的に,提案手法であるDual-Advantage Weighted Offline Goal-conditioned RL (DAWOG) が,一般的なベンチマークにおいて競合するオフラインアルゴリズムよりも優れていることを示す。
分析的に、学習ポリシーが基礎となる行動ポリシーよりも決して悪くないことを保証する。
関連論文リスト
- Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - Policy-regularized Offline Multi-objective Reinforcement Learning [11.58560880898882]
我々は、単一目的のオフラインRL問題に対して広く適用されたオフラインポリシー規則化手法を、多目的の設定に拡張する。
本研究では,1) 行動選好の近似による選好非一貫性の実証をフィルタリングすること,2) 政策表現性の高い正規化手法を採用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2024-01-04T12:54:10Z) - GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。