論文の概要: A Policy-Guided Imitation Approach for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.08323v3
- Date: Wed, 5 Apr 2023 04:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 16:17:47.515131
- Title: A Policy-Guided Imitation Approach for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための政策指導型模倣手法
- Authors: Haoran Xu, Li Jiang, Jianxiong Li, Xianyuan Zhan
- Abstract要約: 政策誘導型オフラインRL(textttPOR)を紹介する。
textttPORは、オフラインRLの標準ベンチマークであるD4RLで最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 9.195775740684248
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline reinforcement learning (RL) methods can generally be categorized into
two types: RL-based and Imitation-based. RL-based methods could in principle
enjoy out-of-distribution generalization but suffer from erroneous off-policy
evaluation. Imitation-based methods avoid off-policy evaluation but are too
conservative to surpass the dataset. In this study, we propose an alternative
approach, inheriting the training stability of imitation-style methods while
still allowing logical out-of-distribution generalization. We decompose the
conventional reward-maximizing policy in offline RL into a guide-policy and an
execute-policy. During training, the guide-poicy and execute-policy are learned
using only data from the dataset, in a supervised and decoupled manner. During
evaluation, the guide-policy guides the execute-policy by telling where it
should go so that the reward can be maximized, serving as the \textit{Prophet}.
By doing so, our algorithm allows \textit{state-compositionality} from the
dataset, rather than \textit{action-compositionality} conducted in prior
imitation-style methods. We dumb this new approach Policy-guided Offline RL
(\texttt{POR}). \texttt{POR} demonstrates the state-of-the-art performance on
D4RL, a standard benchmark for offline RL. We also highlight the benefits of
\texttt{POR} in terms of improving with supplementary suboptimal data and
easily adapting to new tasks by only changing the guide-poicy.
- Abstract(参考訳): オフライン強化学習(RL)法は一般にRL法とImitation法の二種類に分類される。
rlベースの手法は、原則として分散の一般化を享受できるが、誤ったオフポリシー評価に苦しむ。
模倣ベースの手法は、オフポリシー評価を避けるが、データセットを超えるには保守的すぎる。
本研究では,模倣型手法の学習安定性を継承しつつ,論理分布の一般化を許容する別の手法を提案する。
従来の報酬最大化ポリシーをオフラインrlでガイド・ポリシーと実行・ポリシーに分解する。
トレーニング中は、教師付きかつ分離された方法で、データセットからのデータのみを使用して、ガイドポイティと実行ポリシが学習される。
評価中、ガイドポリシーは実行時ポリティシをガイドし、報酬を最大化できるように、実行時ポリティシを指示し、 \textit{Prophet} として機能する。
そこで本アルゴリズムでは, 先行模倣方式で行うのではなく, データセットから \textit{state-compositionality} を許容する。
この新しいアプローチは、ポリシー誘導オフラインRL(\texttt{POR})を軽視します。
\texttt{POR}は、オフラインRLの標準ベンチマークであるD4RLにおける最先端のパフォーマンスを示す。
また、補足的最適データの改善や、ガイドポイティの変更だけで新しいタスクに容易に適応できるという点で、‘texttt{POR}’の利点も強調する。
関連論文リスト
- Diffusion Policies for Out-of-Distribution Generalization in Offline
Reinforcement Learning [1.9336815376402723]
オフラインのRLメソッドは、過去の経験を活用して、データ収集に使用される行動ポリシーよりも優れたポリシーを学ぶ。
しかし、オフラインのRLアルゴリズムは、トレーニング中にオンラインインタラクションが欠如しているため、分散シフトの処理やポリシーの効果的表現において課題に直面している。
本稿では,近年の拡散政策における状態再構成特徴学習を取り入れたSRDP(State Reconstruction for Diffusion Policies)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:34:23Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。