論文の概要: Learning Bellman Complete Representations for Offline Policy Evaluation
- arxiv url: http://arxiv.org/abs/2207.05837v1
- Date: Tue, 12 Jul 2022 21:02:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 14:21:10.123910
- Title: Learning Bellman Complete Representations for Offline Policy Evaluation
- Title(参考訳): オフライン政策評価のためのベルマン完全表現の学習
- Authors: Jonathan D. Chang and Kaiwen Wang and Nathan Kallus and Wen Sun
- Abstract要約: サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
- 参考スコア(独自算出の注目度): 51.96704525783913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study representation learning for Offline Reinforcement Learning (RL),
focusing on the important task of Offline Policy Evaluation (OPE). Recent work
shows that, in contrast to supervised learning, realizability of the Q-function
is not enough for learning it. Two sufficient conditions for sample-efficient
OPE are Bellman completeness and coverage. Prior work often assumes that
representations satisfying these conditions are given, with results being
mostly theoretical in nature. In this work, we propose BCRL, which directly
learns from data an approximately linear Bellman complete representation with
good coverage. With this learned representation, we perform OPE using Least
Square Policy Evaluation (LSPE) with linear functions in our learned
representation. We present an end-to-end theoretical analysis, showing that our
two-stage algorithm enjoys polynomial sample complexity provided some
representation in the rich class considered is linear Bellman complete.
Empirically, we extensively evaluate our algorithm on challenging, image-based
continuous control tasks from the Deepmind Control Suite. We show our
representation enables better OPE compared to previous representation learning
methods developed for off-policy RL (e.g., CURL, SPR). BCRL achieve competitive
OPE error with the state-of-the-art method Fitted Q-Evaluation (FQE), and beats
FQE when evaluating beyond the initial state distribution. Our ablations show
that both linear Bellman complete and coverage components of our method are
crucial.
- Abstract(参考訳): 本稿では,オフライン強化学習(RL)における表現学習について検討し,オフライン政策評価(OPE)の重要な課題に着目した。
近年の研究では、教師付き学習とは対照的に、Q-関数の実現性は学習に十分でないことが示されている。
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
先行研究は、しばしばこれらの条件を満たす表現が与えられると仮定し、その結果は本質的に理論上ほとんどである。
本稿では,BCRLを提案する。BCRLは,データから直接,ほぼ線形なベルマン完全表現を,良好なカバレッジで学習する。
この学習表現を用いて、学習表現に線形関数を持つLast Square Policy Evaluation (LSPE)を用いてOPEを実行する。
本稿では、線形ベルマン完備であるリッチクラスにおける表現を仮定して、2段階のアルゴリズムが多項式サンプルの複雑性を楽しむことを示す。
実験により,Deepmind Control Suiteによる画像ベース連続制御の課題に対するアルゴリズムを広範囲に評価した。
我々は, オフポリティクスRL(例えば, CURL, SPR)で開発された従来の表現学習手法と比較して, 表現によりOPEが向上することを示す。
BCRLは、最先端のQ評価法であるFitted Q-Evaluation (FQE)と競合するOPE誤差を達成し、初期状態分布を超えて評価するとFQEを破る。
提案手法の線形ベルマン完全成分とカバレッジ成分の両方が重要であることを示す。
関連論文リスト
- iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。
我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。
iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-06-04T18:15:44Z) - Free from Bellman Completeness: Trajectory Stitching via Model-based
Return-conditioned Supervised Learning [22.287106840756483]
本稿では,リターン条件付き教師あり学習(RCSL)に基づく非政治的学習技術が,ベルマン完全性の課題を回避することができることを示す。
本稿では,MBRCSL と呼ばれる単純なフレームワークを提案し,RCSL の手法により動的プログラミングにより,異なるトラジェクトリのセグメントを縫合することを可能にする。
論文 参考訳(メタデータ) (2023-10-30T07:03:14Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Stackelberg Batch Policy Learning [3.5426153040167754]
バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。
そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
論文 参考訳(メタデータ) (2023-09-28T06:18:34Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Provably Efficient Representation Selection in Low-rank Markov Decision
Processes: From Online to Offline RL [84.14947307790361]
オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。
Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。
オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
論文 参考訳(メタデータ) (2021-06-22T17:16:50Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。