論文の概要: Least Square Value Iteration is Robust Under Locally Bounded
Misspecification Error
- arxiv url: http://arxiv.org/abs/2306.10694v1
- Date: Mon, 19 Jun 2023 04:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 19:04:35.975470
- Title: Least Square Value Iteration is Robust Under Locally Bounded
Misspecification Error
- Title(参考訳): 局所境界ミス種別誤差下での最小二乗値反復はロバストである
- Authors: Yunfan Li and Lin Yang
- Abstract要約: 近年,政策関数近似が局所的に有界な誤特定誤差の大きい場合であっても,ポリシーに基づくアプローチは堅牢であることが示されている。
本稿では,局所的不特定誤差境界の下で,探索ボーナスを慎重に設計したLast-Square-Value-Iterationを提案する。
- 参考スコア(独自算出の注目度): 9.087757061699534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of reinforcement learning heavily relies on the function
approximation of policy, value or models, where misspecification (a mismatch
between the ground-truth and best function approximators) naturally occurs
especially when the ground-truth is complex. As misspecification error does not
vanish even with infinite number of samples, designing algorithms that are
robust under misspecification is of paramount importance. Recently, it is shown
that policy-based approaches can be robust even when the policy function
approximation is under a large locally-bounded misspecification error, with
which the function class may have $\Omega(1)$ approximation error in certain
states and actions but is only small on average under a policy-induced
state-distribution; whereas it is only known that value-based approach can
effectively learn under globally-bounded misspecification error, i.e., the
approximation errors to value functions have a uniform upper bound on all
state-actions. Yet it remains an open question whether similar robustness can
be achieved with value-based approaches. In this paper, we answer this question
affirmatively by showing that the algorithm, Least-Square-Value-Iteration [Jin
et al, 2020], with carefully designed exploration bonus can achieve robustness
under local misspecification error bound. In particular, we show that algorithm
achieves a regret bound of $\widetilde{O}\left(\sqrt{d^3KH^4} + dKH^2\zeta
\right)$, where $d$ is the dimension of linear features, $H$ is the length of
the episode, $K$ is the total number of episodes, and $\zeta$ is the local
bound of the misspecification error. Moreover, we show that the algorithm can
achieve the same regret bound without knowing $\zeta$ and can be used as robust
policy evaluation oracle that can be applied to improve sample complexity in
policy-based approaches.
- Abstract(参考訳): 強化学習の成功は、特に地道が複雑である場合に自然に、不特定性(地道と最良機能近似器のミスマッチ)が生じる政策、価値、モデルの関数近似に大きく依存している。
誤特定エラーは無限のサンプルでも消えないため、誤特定の下で堅牢なアルゴリズムを設計することが最重要となる。
Recently, it is shown that policy-based approaches can be robust even when the policy function approximation is under a large locally-bounded misspecification error, with which the function class may have $\Omega(1)$ approximation error in certain states and actions but is only small on average under a policy-induced state-distribution; whereas it is only known that value-based approach can effectively learn under globally-bounded misspecification error, i.e., the approximation errors to value functions have a uniform upper bound on all state-actions.
しかし、同じロバスト性が価値ベースのアプローチで達成できるかどうかは、まだ疑問の余地がない。
本稿では,提案アルゴリズムであるLast-Square-Value-Iteration [Jin et al, 2020]を設計した探索ボーナスを用いて,局所的不特定誤差の下で頑健性を実現することができることを示す。
具体的には,$d$ が線形特徴の次元,$H$ がエピソードの長さ,$K$ がエピソードの総数,$\zeta$ が誤特定誤差の局所的境界である場合,アルゴリズムが $\widetilde{O}\left(\sqrt{d^3KH^4} + dKH^2\zeta \right)$ を後悔境界とすることを示す。
さらに,このアルゴリズムは$\zeta$を知らずに同じ後悔点を達成できることを示し,政策に基づくアプローチにおけるサンプルの複雑さを改善するために,ロバストな政策評価オラクルとして使用できることを示した。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Target Network and Truncation Overcome The Deadly triad in $Q$-Learning [7.532013242448151]
本稿では,ターゲットネットワークとトランケーションを用いた線形関数近似を用いた$Q$-learningの安定設計を提案する。
この結果から,関数近似誤差まで,$mathcalO(epsilon-2)$サンプルの複雑さが示唆された。
これは線形関数近似による$Q$-learningの最初の変種であり、強い仮定や問題パラメータの変更を必要とせず、確実に安定である。
論文 参考訳(メタデータ) (2022-03-05T00:54:58Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement
Learning? [30.065091907118827]
本研究は,マルコフ決定過程(MDP)における$epsilon$-optimal Policyの発見の複雑さについて考察する。
実験モデルを構築し,任意のプラグインソルバを用いて実験モデルを計画するプラグインソルバ手法を用いてこの問題を解決する。
プラグインアプローチはサンプル効率も向上し,強化学習のためのモデルベースアルゴリズムを設計するための柔軟なアプローチを提供する。
論文 参考訳(メタデータ) (2020-10-12T13:13:01Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。