論文の概要: Improving Offline RL by Blending Heuristics
- arxiv url: http://arxiv.org/abs/2306.00321v1
- Date: Thu, 1 Jun 2023 03:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:32:05.998300
- Title: Improving Offline RL by Blending Heuristics
- Title(参考訳): ブレンディングヒューリスティックスによるオフラインRLの改善
- Authors: Sinong Geng, Aldo Pacchiano, Andrey Kolobov, Ching-An Cheng
- Abstract要約: Heuristic Blending (HUBL) は、値ブートストラップに基づく幅広いオフラインアルゴリズムのための単純なパフォーマンス改善手法である。
このアイデアは、最適化された報酬と割引係数でオフラインデータセットを緩和することで、容易に実装できることを示す。
我々は、HUBLが4つの最先端ブートストラップベースのオフラインRLアルゴリズムのポリシー品質を一貫して改善することを実証的に実証した。
- 参考スコア(独自算出の注目度): 35.5466878331639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Heuristic Blending (HUBL), a simple performance-improving
technique for a broad class of offline RL algorithms based on value
bootstrapping. HUBL modifies Bellman operators used in these algorithms,
partially replacing the bootstrapped values with Monte-Carlo returns as
heuristics. For trajectories with higher returns, HUBL relies more on
heuristics and less on bootstrapping; otherwise, it leans more heavily on
bootstrapping. We show that this idea can be easily implemented by relabeling
the offline datasets with adjusted rewards and discount factors, making HUBL
readily usable by many existing offline RL implementations. We theoretically
prove that HUBL reduces offline RL's complexity and thus improves its
finite-sample performance. Furthermore, we empirically demonstrate that HUBL
consistently improves the policy quality of four state-of-the-art
bootstrapping-based offline RL algorithms (ATAC, CQL, TD3+BC, and IQL), by 9%
on average over 27 datasets of the D4RL and Meta-World benchmarks.
- Abstract(参考訳): 本稿では,値ブートストラップに基づくオフラインRLアルゴリズムの簡易な性能改善手法であるHUBLを提案する。
HUBLはこれらのアルゴリズムで使用されるベルマン演算子を修正し、ブートストラップされた値を部分的にモンテカルロの戻り値をヒューリスティックとして置き換える。
高いリターンを持つ軌道では、HUBLはヒューリスティックに頼り、ブートストレッピングに頼らず、そうでなければブートストレッピングに強く依存する。
このアイデアは、調整された報酬と割引係数でオフラインデータセットを緩和することで容易に実装できることを示し、既存の多くのオフラインRL実装で容易に利用できるようにする。
理論的には、HUBLはオフラインRLの複雑さを減らし、有限サンプル性能を向上させる。
さらに私たちは,4つの最先端ブートストラップベースのオフラインrlアルゴリズム(atac, cql, td3+bc, iql)のポリシ品質を,d4rlおよびメタワールドベンチマークの27のデータセット平均で9%一貫して向上させることを実証した。
関連論文リスト
- Binary Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning [5.480108613013526]
本稿では、報酬ベースのオフラインRLと優先ベースのオフラインRLのギャップを埋める一般的なフレームワークを提案する。
我々の重要な洞察は、好みフィードバックを2進報酬ラベリング(BRL)を通してスカラー報酬に変換することである。
我々は、標準D4RLベンチマークに基づいて、好みデータセットに基づいて、我々のフレームワークを実証的にテストする。
論文 参考訳(メタデータ) (2024-06-14T23:40:42Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning [26.59374102005998]
我々はまず,共有構造を持つ2つのRLアプローチのインスタンスとして,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムをいくつか導入した。
本稿では、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法であるReCOILを提案する。
オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、Gumbel回帰損失に対して代替的な選択肢を提供する新しい方法f-DVLを提案する。
論文 参考訳(メタデータ) (2023-02-16T20:10:06Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。
本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。
オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文 参考訳(メタデータ) (2021-06-12T20:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。