論文の概要: Offline Reinforcement Learning with Value-based Episodic Memory
- arxiv url: http://arxiv.org/abs/2110.09796v1
- Date: Tue, 19 Oct 2021 08:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:14:34.120315
- Title: Offline Reinforcement Learning with Value-based Episodic Memory
- Title(参考訳): value-based episodic memoryを用いたオフライン強化学習
- Authors: Xiaoteng Ma, Yiqin Yang, Hao Hu, Qihan Liu, Jun Yang, Chongjie Zhang,
Qianchuan Zhao, Bin Liang
- Abstract要約: オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
- 参考スコア(独自算出の注目度): 19.12430651038357
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline reinforcement learning (RL) shows promise of applying RL to
real-world problems by effectively utilizing previously collected data. Most
existing offline RL algorithms use regularization or constraints to suppress
extrapolation error for actions outside the dataset. In this paper, we adopt a
different framework, which learns the V-function instead of the Q-function to
naturally keep the learning procedure within the support of an offline dataset.
To enable effective generalization while maintaining proper conservatism in
offline learning, we propose Expectile V-Learning (EVL), which smoothly
interpolates between the optimal value learning and behavior cloning. Further,
we introduce implicit planning along offline trajectories to enhance learned
V-values and accelerate convergence. Together, we present a new offline method
called Value-based Episodic Memory (VEM). We provide theoretical analysis for
the convergence properties of our proposed VEM method, and empirical results in
the D4RL benchmark show that our method achieves superior performance in most
tasks, particularly in sparse-reward tasks.
- Abstract(参考訳): オフライン強化学習(RL)は、以前に収集したデータを効果的に活用することにより、実世界の問題にRLを適用することを約束する。
既存のオフラインRLアルゴリズムの多くは、データセット外のアクションに対する外挿エラーを抑制するために正規化や制約を使用している。
本稿では、Q関数の代わりにV関数を学習する異なるフレームワークを採用し、学習手順をオフラインデータセットのサポート内で自然に維持する。
オフライン学習における適切な保守性を維持しつつ効果的な一般化を実現するために,最適値学習と行動クローニングを円滑に補間する期待型Vラーニング(EVL)を提案する。
さらに,オフライントラジェクタに暗黙的計画を導入し,学習したv値を高め,収束を加速する。
本稿では,新しいオフライン手法であるValue-based Episodic Memory (VEM)を提案する。
本稿では,提案手法の収束特性に関する理論的解析を行い,D4RLベンチマークにおける実験結果から,本手法が多くのタスク,特にスパース・リワードタスクにおいて優れた性能を発揮することを示す。
関連論文リスト
- Goal-Conditioned Offline Reinforcement Learning via Metric Learning [24.224380153671394]
目標条件付きオフライン強化学習の文脈における最適データセットからの最適行動学習の問題に対処する。
本稿では, 目標条件付きオフラインRL問題に対する最適値関数を, 厳密な報酬, 対称性, 決定論的行動の下で近似する方法を提案する。
提案手法は,準最適オフラインデータセットからの学習において,他のオフラインRLベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。