論文の概要: On Reward-Free Reinforcement Learning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2006.11274v1
- Date: Fri, 19 Jun 2020 17:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 03:20:58.074499
- Title: On Reward-Free Reinforcement Learning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた報酬フリー強化学習について
- Authors: Ruosong Wang, Simon S. Du, Lin F. Yang, Ruslan Salakhutdinov
- Abstract要約: Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
- 参考スコア(独自算出の注目度): 144.4210285338698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward-free reinforcement learning (RL) is a framework which is suitable for
both the batch RL setting and the setting where there are many reward functions
of interest. During the exploration phase, an agent collects samples without
using a pre-specified reward function. After the exploration phase, a reward
function is given, and the agent uses samples collected during the exploration
phase to compute a near-optimal policy. Jin et al. [2020] showed that in the
tabular setting, the agent only needs to collect polynomial number of samples
(in terms of the number states, the number of actions, and the planning
horizon) for reward-free RL. However, in practice, the number of states and
actions can be large, and thus function approximation schemes are required for
generalization. In this work, we give both positive and negative results for
reward-free RL with linear function approximation. We give an algorithm for
reward-free RL in the linear Markov decision process setting where both the
transition and the reward admit linear representations. The sample complexity
of our algorithm is polynomial in the feature dimension and the planning
horizon, and is completely independent of the number of states and actions. We
further give an exponential lower bound for reward-free RL in the setting where
only the optimal $Q$-function admits a linear representation. Our results imply
several interesting exponential separations on the sample complexity of
reward-free RL.
- Abstract(参考訳): Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
探索段階では、エージェントは所定の報酬関数を使わずにサンプルを収集する。
探索フェーズ後、報酬関数が与えられ、探索フェーズ中に収集されたサンプルを使用して、ほぼ最適ポリシーを算出する。
ジンなど。
2020] では, 報酬のないrlに対して, エージェントは多項式数のサンプル(数状態, アクション数, 計画地平線)を収集するだけでよいことを示した。
しかし、実際には状態と動作の数が大きくなり、一般化には関数近似スキームが必要である。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
我々は、遷移と報酬の両方が線形表現を許容する線形マルコフ決定過程において、報酬のないRLのアルゴリズムを与える。
我々のアルゴリズムのサンプル複雑性は特徴次元と計画地平線における多項式であり、状態と行動の数とは全く独立である。
さらに、最適$Q$-函数のみが線型表現を許容する設定において、報酬のない RL に対して指数的な下界を与える。
この結果は、報酬のないrlのサンプル複雑性に関するいくつかの興味深い指数関数的分離を示している。
関連論文リスト
- Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback [38.61232011566285]
本稿では,最近提案されたRLモデルとアグリゲート帯域フィードバック(RL-ABF)について検討する。
本稿では,ABFを線形関数近似に拡張し,ほぼ最適後悔保証を伴う2つの効率的なアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-05-13T10:51:01Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。