論文の概要: On the Model-Misspecification in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.10694v2
- Date: Sat, 6 Jan 2024 21:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:34:54.248091
- Title: On the Model-Misspecification in Reinforcement Learning
- Title(参考訳): 強化学習におけるモデルミスセグメンテーションについて
- Authors: Yunfan Li and Lin Yang
- Abstract要約: 本稿では,強化学習におけるモデルの誤特定に対処するための統一的理論的枠組みを提案する。
本研究では,値に基づく手法とモデルに基づく手法が,局所的不特定誤差境界の下で頑健性を実現することを示す。
また、$zeta$の事前知識なしで同じ後悔の順序を達成できるアルゴリズム的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.864462523050843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of reinforcement learning (RL) crucially depends on effective
function approximation when dealing with complex ground-truth models. Existing
sample-efficient RL algorithms primarily employ three approaches to function
approximation: policy-based, value-based, and model-based methods. However, in
the face of model misspecification (a disparity between the ground-truth and
optimal function approximators), it is shown that policy-based approaches can
be robust even when the policy function approximation is under a large
locally-bounded misspecification error, with which the function class may
exhibit a $\Omega(1)$ approximation error in specific states and actions, but
remains small on average within a policy-induced state distribution. Yet it
remains an open question whether similar robustness can be achieved with
value-based and model-based approaches, especially with general function
approximation.
To bridge this gap, in this paper we present a unified theoretical framework
for addressing model misspecification in RL. We demonstrate that, through
meticulous algorithm design and sophisticated analysis, value-based and
model-based methods employing general function approximation can achieve
robustness under local misspecification error bounds. In particular, they can
attain a regret bound of $\widetilde{O}\left(\text{poly}(d H)(\sqrt{K} +
K\zeta) \right)$, where $d$ represents the complexity of the function class,
$H$ is the episode length, $K$ is the total number of episodes, and $\zeta$
denotes the local bound for misspecification error. Furthermore, we propose an
algorithmic framework that can achieve the same order of regret bound without
prior knowledge of $\zeta$, thereby enhancing its practical applicability.
- Abstract(参考訳): 強化学習(rl)の成功は、複雑な基底モデルを扱う際の効果的な関数近似に依存する。
既存のサンプル効率のRLアルゴリズムは、ポリシベース、バリューベース、モデルベースという3つのアプローチを主に採用している。
しかし、モデル誤特定(基底と最適関数の差)に直面した場合、政策関数近似が局所的に境界付けられた大きな誤特定誤差下にある場合でも、政策に基づくアプローチは頑健であることが示され、関数クラスは特定の状態や行動において$\omega(1)$近似誤差を示すが、政策誘発状態の分布では平均的に小さい。
しかし、値ベースとモデルベースのアプローチ、特に一般関数近似によって、類似のロバスト性が達成できるかどうかは、まだ疑問の余地がある。
本稿では,このギャップを埋めるために,rlにおけるモデル誤特定に対処するための統一的な理論的枠組みを提案する。
注意深いアルゴリズム設計と洗練された解析により,一般関数近似を用いた値ベースおよびモデルベース手法が,局所的不特定化誤差境界下での頑健性を実現することを実証する。
特に、$\widetilde{O}\left(\text{poly}(d H)(\sqrt{K} + K\zeta) \right)$、$d$は関数クラスの複雑さを表し、$H$はエピソードの長さであり、$K$はエピソードの総数であり、$\zeta$は誤特定エラーの局所境界を表す。
さらに,$\zeta$の事前知識を必要とせず,同様の後悔の順序を実現できるアルゴリズムフレームワークを提案する。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Target Network and Truncation Overcome The Deadly triad in $Q$-Learning [7.532013242448151]
本稿では,ターゲットネットワークとトランケーションを用いた線形関数近似を用いた$Q$-learningの安定設計を提案する。
この結果から,関数近似誤差まで,$mathcalO(epsilon-2)$サンプルの複雑さが示唆された。
これは線形関数近似による$Q$-learningの最初の変種であり、強い仮定や問題パラメータの変更を必要とせず、確実に安定である。
論文 参考訳(メタデータ) (2022-03-05T00:54:58Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement
Learning? [30.065091907118827]
本研究は,マルコフ決定過程(MDP)における$epsilon$-optimal Policyの発見の複雑さについて考察する。
実験モデルを構築し,任意のプラグインソルバを用いて実験モデルを計画するプラグインソルバ手法を用いてこの問題を解決する。
プラグインアプローチはサンプル効率も向上し,強化学習のためのモデルベースアルゴリズムを設計するための柔軟なアプローチを提供する。
論文 参考訳(メタデータ) (2020-10-12T13:13:01Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。