論文の概要: Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition
- arxiv url: http://arxiv.org/abs/2403.04568v1
- Date: Thu, 7 Mar 2024 15:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:46:09.752063
- Title: Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition
- Title(参考訳): 帯域フィードバックと未知遷移を考慮した逆線形混合MDPの改良アルゴリズム
- Authors: Long-Fei Li, Peng Zhao, Zhi-Hua Zhou
- Abstract要約: 線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 71.33787410075577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning with linear function approximation, unknown
transition, and adversarial losses in the bandit feedback setting.
Specifically, we focus on linear mixture MDPs whose transition kernel is a
linear mixture model. We propose a new algorithm that attains an
$\widetilde{O}(d\sqrt{HS^3K} + \sqrt{HSAK})$ regret with high probability,
where $d$ is the dimension of feature mappings, $S$ is the size of state space,
$A$ is the size of action space, $H$ is the episode length and $K$ is the
number of episodes. Our result strictly improves the previous best-known
$\widetilde{O}(dS^2 \sqrt{K} + \sqrt{HSAK})$ result in Zhao et al. (2023a)
since $H \leq S$ holds by the layered MDP structure. Our advancements are
primarily attributed to (i) a new least square estimator for the transition
parameter that leverages the visit information of all states, as opposed to
only one state in prior work, and (ii) a new self-normalized concentration
tailored specifically to handle non-independent noises, originally proposed in
the dynamic assortment area and firstly applied in reinforcement learning to
handle correlations between different states.
- Abstract(参考訳): バンディットフィードバック設定における線形関数近似,未知遷移,敵対的損失を用いた強化学習について検討した。
具体的には,遷移核が線形混合モデルである線形混合MDPに着目した。
我々は、$\widetilde{o}(d\sqrt{hs^3k} + \sqrt{hsak})$を高い確率で達成する新しいアルゴリズムを提案する。$d$は特徴マッピングの次元、$s$は状態空間のサイズ、$a$はアクション空間のサイズ、$h$はエピソード長、$k$はエピソード数である。
我々の結果は、Zhao et al. (2023a) において、$H \leq S$ は層状 MDP 構造によって成り立つので、以前の最もよく知られた $\widetilde{O}(dS^2 \sqrt{K} + \sqrt{HSAK})$ を厳密に改善する。
私たちの進歩は主に
(i)全状態の訪問情報を利用する遷移パラメーターの新規最小二乗推定器であって、先行作業中の1つの状態のみとは対照的であるもの
(II)非独立ノイズに特化して調整された新しい自己正規化濃度は、もともと動的配置領域で提案され、まず異なる状態間の相関を扱うために強化学習に適用された。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Demystifying Linear MDPs and Novel Dynamics Aggregation Framework [8.087699764574788]
線型 MDP において、$d$ は遷移確率を適切に表すために$S/U$ で制限される。
動的アグリゲーション(dynamics aggregate, 動的アグリゲーション)と呼ばれる動的に基づく新しい構造アグリゲーションフレームワークを提案する。
提案アルゴリズムは統計的効率を示し,$ tildeO (d_psi3/2 H3/2sqrt T)$, $d_psi$は集約されたサブMDPの特徴次元を表す。
論文 参考訳(メタデータ) (2024-10-31T16:21:41Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - Computationally Efficient Horizon-Free Reinforcement Learning for Linear
Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。
我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。
これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文 参考訳(メタデータ) (2022-05-23T17:59:18Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。