論文の概要: Logarithmic Switching Cost in Reinforcement Learning beyond Linear MDPs
- arxiv url: http://arxiv.org/abs/2302.12456v1
- Date: Fri, 24 Feb 2023 05:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:33:33.112699
- Title: Logarithmic Switching Cost in Reinforcement Learning beyond Linear MDPs
- Title(参考訳): 線形MDPを超えた強化学習における対数スイッチングコスト
- Authors: Dan Qiao, Ming Yin, Yu-Xiang Wang
- Abstract要約: 本稿では,時間ホリゾン$H$において,エピソード数と線形数に切り替えコストの対数性を持たせることで,ほぼ最適の後悔を実現するアルゴリズムを提案する。
また、ELEANOR-LowSwitchingで使われる「二重化トリック」を一般化線形関数近似にさらに活用できることを示す。
- 参考スコア(独自算出の注目度): 31.673857053336352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-life reinforcement learning (RL) problems, deploying new
policies is costly. In those scenarios, algorithms must solve exploration
(which requires adaptivity) while switching the deployed policy sparsely (which
limits adaptivity). In this paper, we go beyond the existing state-of-the-art
on this problem that focused on linear Markov Decision Processes (MDPs) by
considering linear Bellman-complete MDPs with low inherent Bellman error. We
propose the ELEANOR-LowSwitching algorithm that achieves the near-optimal
regret with a switching cost logarithmic in the number of episodes and linear
in the time-horizon $H$ and feature dimension $d$. We also prove a lower bound
proportional to $dH$ among all algorithms with sublinear regret. In addition,
we show the ``doubling trick'' used in ELEANOR-LowSwitching can be further
leveraged for the generalized linear function approximation, under which we
design a sample-efficient algorithm with near-optimal switching cost.
- Abstract(参考訳): 多くの現実の強化学習(rl)問題では、新しいポリシーの導入はコストがかかる。
これらのシナリオでは、アルゴリズムは(適応性を必要とする)探索を解決し、(適応性を制限する)配置されたポリシーをわずかに切り替えなければならない。
本稿では, 線形マルコフ決定過程 (MDP) に着目し, 固有なベルマン誤差の少ない線形ベルマン完全 MDP について検討する。
ELEANOR-LowSwitchingアルゴリズムは,時間軸の$H$と特徴次元$d$で,エピソード数と線形数に切り替えコスト対数で,ほぼ最適の後悔を実現する。
また、サブ線形後悔を伴う全てのアルゴリズムの中で、$dH$に比例する低い有界性も証明する。
さらに,eleanor-lowswitching で用いられる ‘doubling trick'' を一般化線形関数近似にさらに活用し,最適に近いスイッチングコストでサンプル効率のよいアルゴリズムを設計できることを示した。
関連論文リスト
- Learning Infinite-Horizon Average-Reward Linear Mixture MDPs of Bounded Span [16.49229317664822]
本稿では,無限水平平均逆線形混合マルコフ決定過程(MDPs)を学習するための計算抽出可能なアルゴリズムを提案する。
線形混合MDPのアルゴリズムは,$widetildemathcalO(dsqrtmathrmsp(v*)T)$$$T$以上の最小限の後悔上限を実現する。
論文 参考訳(メタデータ) (2024-10-19T05:45:50Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning
with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。
我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T03:48:26Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - A Provably Efficient Algorithm for Linear Markov Decision Process with
Low Switching Cost [53.968049198926444]
スイッチングコストの低い線形MDPのための最初のアルゴリズムを提案する。
このアルゴリズムは$widetildeoleft(sqrtd3h4kright)$ regretをほぼ最適の$oleft(d hlog kright)$グローバルスイッチングコストで達成する。
論文 参考訳(メタデータ) (2021-01-02T18:41:27Z) - Nonstationary Reinforcement Learning with Linear Function Approximation [19.521419943509784]
ドリフト環境下での線形関数近似によるマルコフ決定過程(MDP)における強化学習について考察する。
まず、周期的再起動を伴う最小二乗値の楽観的な修正を開発し、変動予算が分かっている場合にその動的後悔を束縛する。
非定常線型 MDP に対する最初の minimax dynamic regret lower bound を導出し、副生成物として Jin らによって未解決の線型 MDP に対する minimax regret lower bound を定めている。
論文 参考訳(メタデータ) (2020-10-08T20:07:44Z) - Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and
Tighter Regret Bounds for the Non-Episodic Setting [24.90164851620799]
非等化因子マルコフ決定過程(FMDP)における強化学習の研究
FMDPに対する2つの近似およびオラクル効率アルゴリズムを提案する。
我々のオラクル効率のアルゴリズムは、コンピュータネットワーク管理シミュレーションにおいて、これまで提案されていた近似アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-02-06T15:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。