論文の概要: Improving Offline RL by Blending Heuristics
- arxiv url: http://arxiv.org/abs/2306.00321v1
- Date: Thu, 1 Jun 2023 03:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:32:05.998300
- Title: Improving Offline RL by Blending Heuristics
- Title(参考訳): ブレンディングヒューリスティックスによるオフラインRLの改善
- Authors: Sinong Geng, Aldo Pacchiano, Andrey Kolobov, Ching-An Cheng
- Abstract要約: Heuristic Blending (HUBL) は、値ブートストラップに基づく幅広いオフラインアルゴリズムのための単純なパフォーマンス改善手法である。
このアイデアは、最適化された報酬と割引係数でオフラインデータセットを緩和することで、容易に実装できることを示す。
我々は、HUBLが4つの最先端ブートストラップベースのオフラインRLアルゴリズムのポリシー品質を一貫して改善することを実証的に実証した。
- 参考スコア(独自算出の注目度): 35.5466878331639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Heuristic Blending (HUBL), a simple performance-improving
technique for a broad class of offline RL algorithms based on value
bootstrapping. HUBL modifies Bellman operators used in these algorithms,
partially replacing the bootstrapped values with Monte-Carlo returns as
heuristics. For trajectories with higher returns, HUBL relies more on
heuristics and less on bootstrapping; otherwise, it leans more heavily on
bootstrapping. We show that this idea can be easily implemented by relabeling
the offline datasets with adjusted rewards and discount factors, making HUBL
readily usable by many existing offline RL implementations. We theoretically
prove that HUBL reduces offline RL's complexity and thus improves its
finite-sample performance. Furthermore, we empirically demonstrate that HUBL
consistently improves the policy quality of four state-of-the-art
bootstrapping-based offline RL algorithms (ATAC, CQL, TD3+BC, and IQL), by 9%
on average over 27 datasets of the D4RL and Meta-World benchmarks.
- Abstract(参考訳): 本稿では,値ブートストラップに基づくオフラインRLアルゴリズムの簡易な性能改善手法であるHUBLを提案する。
HUBLはこれらのアルゴリズムで使用されるベルマン演算子を修正し、ブートストラップされた値を部分的にモンテカルロの戻り値をヒューリスティックとして置き換える。
高いリターンを持つ軌道では、HUBLはヒューリスティックに頼り、ブートストレッピングに頼らず、そうでなければブートストレッピングに強く依存する。
このアイデアは、調整された報酬と割引係数でオフラインデータセットを緩和することで容易に実装できることを示し、既存の多くのオフラインRL実装で容易に利用できるようにする。
理論的には、HUBLはオフラインRLの複雑さを減らし、有限サンプル性能を向上させる。
さらに私たちは,4つの最先端ブートストラップベースのオフラインrlアルゴリズム(atac, cql, td3+bc, iql)のポリシ品質を,d4rlおよびメタワールドベンチマークの27のデータセット平均で9%一貫して向上させることを実証した。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning [26.59374102005998]
我々はまず,共有構造を持つ2つのRLアプローチのインスタンスとして,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムをいくつか導入した。
本稿では、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法であるReCOILを提案する。
オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、Gumbel回帰損失に対して代替的な選択肢を提供する新しい方法f-DVLを提案する。
論文 参考訳(メタデータ) (2023-02-16T20:10:06Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。
本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。
オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文 参考訳(メタデータ) (2021-06-12T20:38:59Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。