論文の概要: Stochastic Gradient Descent with Dependent Data for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.02850v1
- Date: Sun, 6 Feb 2022 20:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 18:19:17.322647
- Title: Stochastic Gradient Descent with Dependent Data for Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習のための従属データを用いた確率的勾配降下
- Authors: Jing Dong and Xin T. Tong
- Abstract要約: オフライン学習は探索と探索を扱うのに役立ち、多くのアプリケーションでデータの再利用を可能にする。
本研究では,政策評価と政策学習という2つのオフライン学習課題について検討する。
- 参考スコア(独自算出の注目度): 4.421561004829125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning (RL), offline learning decoupled learning from data
collection and is useful in dealing with exploration-exploitation tradeoff and
enables data reuse in many applications. In this work, we study two offline
learning tasks: policy evaluation and policy learning. For policy evaluation,
we formulate it as a stochastic optimization problem and show that it can be
solved using approximate stochastic gradient descent (aSGD) with time-dependent
data. We show aSGD achieves $\tilde O(1/t)$ convergence when the loss function
is strongly convex and the rate is independent of the discount factor $\gamma$.
This result can be extended to include algorithms making approximately
contractive iterations such as TD(0). The policy evaluation algorithm is then
combined with the policy iteration algorithm to learn the optimal policy. To
achieve an $\epsilon$ accuracy, the complexity of the algorithm is $\tilde
O(\epsilon^{-2}(1-\gamma)^{-5})$, which matches the complexity bound for
classic online RL algorithms such as Q-learning.
- Abstract(参考訳): 強化学習(RL)では、オフライン学習はデータ収集から切り離された学習であり、探索と探索のトレードオフを扱うのに役立ち、多くのアプリケーションでデータ再利用を可能にする。
本研究では,政策評価と政策学習という2つのオフライン学習課題について検討する。
政策評価において、確率的最適化問題として定式化し、時間依存データを用いて近似確率勾配勾配(aSGD)を用いて解けることを示す。
損失関数が強く凸であり、そのレートが割引係数$\gamma$とは独立であるとき、aSGDが$\tilde O(1/t)$収束を達成することを示す。
この結果は、td(0) のようなほぼ収縮的な反復を行うアルゴリズムを含むように拡張できる。
次に、ポリシー評価アルゴリズムとポリシー反復アルゴリズムを組み合わせることで、最適なポリシーを学習する。
$\epsilon$の精度を達成するために、アルゴリズムの複雑さは$\tilde O(\epsilon^{-2}(1-\gamma)^{-5})$である。
関連論文リスト
- Reinforcement Learning for Infinite-Horizon Average-Reward Linear MDPs via Approximation by Discounted-Reward MDPs [16.49229317664822]
線形MDPを用いた無限水平平均逆強化学習について検討する。
本稿では,$widetildeO(sqrtT)$の後悔境界が,計算効率のよいアルゴリズムを実現することを提案する。
論文 参考訳(メタデータ) (2024-05-23T20:58:33Z) - A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Linear MDPs [18.449996575976993]
無限水平割引設定における線形 MDP を用いたオフライン RL の原始双対アルゴリズムを提案する。
本アルゴリズムは, 部分的データカバレッジを仮定した$O(epsilon-2)$のサンプル複雑性を実現するアルゴリズムとして, この設定において, 計算効率のよい最初のアルゴリズムである。
我々はアルゴリズムをオフラインの制約付きRL設定で動作させ、追加の報酬信号に制約を課すように拡張する。
論文 参考訳(メタデータ) (2024-02-07T00:33:11Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Stochastic Policy Gradient Methods: Improved Sample Complexity for
Fisher-non-degenerate Policies [19.779044926914704]
我々は、フィッシャー非退化パラメタライズドポリシーの一般クラスに対する改善されたグローバルコンバージェンス保証を開発する。
本研究では,Implicit Gradient Transport (N-PG-IGT) を用いた正規化政策勾配法を提案し,この手法のサンプル複雑性を$tildemathcalO(varepsilon-2.5)$とする。
我々はこの複雑さをさらに改善し、ヘッセン支援再帰政策勾配を考慮し、$tilde MathcalmathcalO (varepsilon-2)$に改善する。
論文 参考訳(メタデータ) (2023-02-03T13:50:23Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Policy Finetuning: Bridging Sample-Efficient Offline and Online
Reinforcement Learning [59.02541753781001]
本稿では、学習者が「参照ポリシー」にさらにアクセス可能なオンラインRLの政策微調整に関する理論的研究を開始する。
我々はまず、$varepsilon$$widetildeO(H3SCstar/varepsilon2)$のエピソード内で、ほぼ最適ポリシーを求める鋭いオフライン還元アルゴリズムを設計する。
次に、Omega(H3SminCstar, A/varepsilon2)$のサンプル複雑性を、任意のポリシー微調整アルゴリズムに対して低いバウンドで設定します。
論文 参考訳(メタデータ) (2021-06-09T08:28:55Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Gradient-Based Empirical Risk Minimization using Local Polynomial
Regression [39.29885444997579]
この論文の主な目標は、勾配降下(GD)や勾配降下(SGD)といった異なるアルゴリズムを比較することである。
損失関数がデータのスムーズな場合、各反復でオラクルを学習し、GDとSGDの両方のオラクル複雑度に打ち勝つことができることを示す。
論文 参考訳(メタデータ) (2020-11-04T20:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。