論文の概要: Learning Stochastic Shortest Path with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2110.12727v1
- Date: Mon, 25 Oct 2021 08:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 15:09:09.110343
- Title: Learning Stochastic Shortest Path with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた確率的最短経路の学習
- Authors: Yifei Min and Jiafan He and Tianhao Wang and Quanquan Gu
- Abstract要約: 線形関数近似を用いた強化学習における最短経路 (SSP) 問題について検討し, 遷移カーネルを未知モデルの線形混合として表現する。
本稿では,線形混合SSPを学習するための新しいアルゴリズムを提案し,このアルゴリズムにより,$tilde O(d B_star1.5sqrtK/c_min)$ regretを実現する。
- 参考スコア(独自算出の注目度): 74.08819218747341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the stochastic shortest path (SSP) problem in reinforcement learning
with linear function approximation, where the transition kernel is represented
as a linear mixture of unknown models. We call this class of SSP problems the
linear mixture SSP. We propose a novel algorithm for learning the linear
mixture SSP, which can attain a $\tilde O(d B_{\star}^{1.5}\sqrt{K/c_{\min}})$
regret. Here $K$ is the number of episodes, $d$ is the dimension of the feature
mapping in the mixture model, $B_{\star}$ bounds the expected cumulative cost
of the optimal policy, and $c_{\min}>0$ is the lower bound of the cost
function. Our algorithm also applies to the case when $c_{\min} = 0$, where a
$\tilde O(K^{2/3})$ regret is guaranteed. To the best of our knowledge, this is
the first algorithm with a sublinear regret guarantee for learning linear
mixture SSP. In complement to the regret upper bounds, we also prove a lower
bound of $\Omega(d B_{\star} \sqrt{K})$, which nearly matches our upper bound.
- Abstract(参考訳): 線形関数近似を用いた強化学習における確率的短経路 (ssp) 問題について検討し, 遷移核は未知モデルの線形混合として表現される。
このようなSSP問題を線形混合SSPと呼ぶ。
線形混合SSPを学習するための新しいアルゴリズムを提案し、これは$\tilde O(d B_{\star}^{1.5}\sqrt{K/c_{\min}})$ regretに達することができる。
ここで、$k$ はエピソード数、$d$ は混合モデルのフィーチャマッピングの次元、$b_{\star}$ は最適なポリシーの期待される累積コスト、$c_{\min}>0$ はコスト関数の下限である。
このアルゴリズムはまた、$c_{\min} = 0$の場合にも適用でき、$\tilde O(K^{2/3})$ regretが保証される。
我々の知る限り、これは線形混合SSPを学習するためのサブ線形後悔保証を持つ最初のアルゴリズムである。
後悔の上限を補うために、上限にほぼ一致する$\omega(d b_{\star} \sqrt{k})$という下限も証明する。
関連論文リスト
- Provably Efficient Infinite-Horizon Average-Reward Reinforcement Learning with Linear Function Approximation [1.8416014644193066]
ベルマン最適条件下で線形マルコフ決定過程(MDP)と線形混合MDPを学習するアルゴリズムを提案する。
線形MDPに対する我々のアルゴリズムは、$widetildemathcalO(d3/2mathrmsp(v*)sqrtT)$ over $T$タイムステップの最もよく知られた後悔の上限を達成する。
線形混合 MDP に対して、我々のアルゴリズムは、$widetildemathcalO(dcdotmathrm) の後悔境界に達する。
論文 参考訳(メタデータ) (2024-09-16T23:13:42Z) - Faster Linear Systems and Matrix Norm Approximation via Multi-level Sketched Preconditioning [10.690769339903941]
我々は、$Ax = b$という形式の線形系を解くための、新しい条件付き反復法のクラスを示す。
提案手法は,低ランクなNystr"om近似をスパースランダムスケッチを用いて$A$に構築することに基づいている。
我々は、我々の手法の収束が自然平均条件数$A$に依存することを証明し、Nystr"om近似のランクとして改善する。
論文 参考訳(メタデータ) (2024-05-09T15:53:43Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Reaching Goals is Hard: Settling the Sample Complexity of the Stochastic
Shortest Path [106.37656068276902]
本稿では,最短経路(SSP)問題において,$epsilon$-optimal Policyを学習する際のサンプル複雑性について検討する。
学習者が生成モデルにアクセスできる場合、複雑性境界を導出する。
我々は、$S$状態、$A$アクション、最小コスト$c_min$、およびすべての状態に対する最適ポリシーの最大期待コストを持つ最悪のSSPインスタンスが存在することを示す。
論文 参考訳(メタデータ) (2022-10-10T18:34:32Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - Regret Bounds for Stochastic Shortest Path Problems with Linear Function
Approximation [29.549633678730054]
線形関数近似を用いたエピソディック最短経路問題に対する2つのアルゴリズムを提案する。
1つは計算コストが高いが、$tildeo (sqrtb_star3 d3 k/cmin )$ regret が得られる。
2つ目は実際は計算的に効率的であり、同じ後悔境界が得られると推測する。
論文 参考訳(メタデータ) (2021-05-04T16:05:08Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。