論文の概要: Concentration bounds for SSP Q-learning for average cost MDPs
- arxiv url: http://arxiv.org/abs/2206.03328v1
- Date: Tue, 7 Jun 2022 14:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 20:18:41.466514
- Title: Concentration bounds for SSP Q-learning for average cost MDPs
- Title(参考訳): SSPQ学習における平均コストMDPの集中境界
- Authors: Shaan Ul Haque and Vivek Borkar
- Abstract要約: 等価な最短経路問題に基づくマルコフ決定過程の平均コストに対するQ-ラーニングアルゴリズムの集中度を導出する。
相対値の反復に基づく代替スキームと数値的に比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We derive a concentration bound for a Q-learning algorithm for average cost
Markov decision processes based on an equivalent shortest path problem, and
compare it numerically with the alternative scheme based on relative value
iteration.
- Abstract(参考訳): 等価な最短経路問題に基づく平均コストマルコフ決定過程に対するQ-ラーニングアルゴリズムの集中度を導出し、相対値反復に基づく代替スキームと数値的に比較する。
関連論文リスト
- On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes [11.868402302316131]
本稿では,マルコフ決定過程(MDP)の強化学習(RL)アルゴリズムを,平均回帰基準の下で解析する。
本稿では,MDPを弱通信する反復RVI法のモデル自由集合であるRVI(Rexent Value)に基づくQ-learningアルゴリズムに着目した。
論文 参考訳(メタデータ) (2024-08-29T04:57:44Z) - Robust Q-Learning for finite ambiguity sets [2.3020018305241337]
分布的に堅牢なマルコフ決定問題を解くための新しい$Q$-learningアルゴリズムを提案する。
我々のアプローチは、ある基準測度の周りの球のあいまいさ集合を含むよく研究されたケースを越えている。
論文 参考訳(メタデータ) (2024-07-05T05:19:36Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization [21.30645601474163]
元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。
従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。
計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-02-08T08:08:23Z) - Probabilistic Sampling of Balanced K-Means using Adiabatic Quantum Computing [93.83016310295804]
AQCは研究関心の問題を実装でき、コンピュータビジョンタスクのための量子表現の開発に拍車をかけた。
本研究では,この情報を確率的バランスの取れたk平均クラスタリングに活用する可能性について検討する。
最適でない解を捨てる代わりに, 計算コストを少なくして, 校正後部確率を計算することを提案する。
これにより、合成タスクと実際の視覚データについて、D-Wave AQCで示すような曖昧な解とデータポイントを識別することができる。
論文 参考訳(メタデータ) (2023-10-18T17:59:45Z) - Robust $Q$-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty [5.639904484784127]
分布的ロバストなマルコフ決定問題を解くために,新しい$Q$-learningアルゴリズムを提案する。
提案アルゴリズムの収束性および最適制御問題の解法における分布ロバスト性の検討の利点を実証する。
論文 参考訳(メタデータ) (2022-09-30T10:01:04Z) - Fidelity-Guarantee Entanglement Routing in Quantum Networks [64.49733801962198]
絡み合いルーティングは、2つの任意のノード間のリモート絡み合い接続を確立する。
量子ネットワークにおける複数のソース・デスティネーション(SD)ペアの忠実性を保証するために、精製可能な絡み合わせルーティング設計を提案する。
論文 参考訳(メタデータ) (2021-11-15T14:07:22Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。