論文の概要: Learning and Planning in Average-Reward Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2006.16318v3
- Date: Mon, 28 Jun 2021 10:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:26:57.402127
- Title: Learning and Planning in Average-Reward Markov Decision Processes
- Title(参考訳): 平均回帰マルコフ決定過程における学習と計画
- Authors: Yi Wan, Abhishek Naik, Richard S. Sutton
- Abstract要約: 我々は,平均回帰MDPの学習と計画アルゴリズムを導入する。
全てのアルゴリズムは,平均報酬の推定値を更新する際に,従来の誤差よりも時間差誤差を用いている。
- 参考スコア(独自算出の注目度): 15.586087060535398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce learning and planning algorithms for average-reward MDPs,
including 1) the first general proven-convergent off-policy model-free control
algorithm without reference states, 2) the first proven-convergent off-policy
model-free prediction algorithm, and 3) the first off-policy learning algorithm
that converges to the actual value function rather than to the value function
plus an offset. All of our algorithms are based on using the
temporal-difference error rather than the conventional error when updating the
estimate of the average reward. Our proof techniques are a slight
generalization of those by Abounadi, Bertsekas, and Borkar (2001). In
experiments with an Access-Control Queuing Task, we show some of the
difficulties that can arise when using methods that rely on reference states
and argue that our new algorithms can be significantly easier to use.
- Abstract(参考訳): 我々は,平均回帰MDPの学習と計画アルゴリズムを導入する。
1) レファレンス状態のない初の一般証明平均オフポリシーモデルフリー制御アルゴリズム
2)最初の実証済みのオフ・コンバージェント・モデルフリー予測アルゴリズム、及び
3)最初のオフ政治学習アルゴリズムは,値関数+オフセットではなく,実際の値関数に収束する。
全てのアルゴリズムは,平均報酬の推定値を更新する際に,従来の誤差よりも時間差誤差を用いている。
我々の証明手法は、Abounadi, Bertsekas, Borkar (2001) によるものである。
アクセス制御キュータスクを用いた実験では、参照状態に依存するメソッドを使用する場合に発生する問題のいくつかを示し、新しいアルゴリズムの使用がはるかに容易であると主張する。
関連論文リスト
- Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Algorithms that Approximate Data Removal: New Results and Limitations [2.6905021039717987]
本研究では,経験的リスク最小化を用いて学習した機械学習モデルからユーザデータを削除することの問題点について検討する。
計算とメモリ効率を両立させるオンラインアンラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-09-25T17:20:33Z) - AWD3: Dynamic Reduction of the Estimation Bias [0.0]
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
論文 参考訳(メタデータ) (2021-11-12T15:46:19Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - An Empirical Comparison of Off-policy Prediction Learning Algorithms on
the Collision Task [9.207173776826403]
他の政策に従えば、ある政策のデータからある政策の価値関数を学習するオフ政治予測は、強化学習において最も困難なサブプロブレムの1つだ。
本稿では,線形関数近似を用いた11個の非政治学習アルゴリズムによる経験的結果を示す。
論文 参考訳(メタデータ) (2021-06-02T03:45:43Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical
Comparison [17.692408242465763]
バッチ強化学習において、$Qstar$を近似する2つのアルゴリズムの性能保証を証明する。
アルゴリズムの1つは、ベルマン誤差推定における悪名高い「二重サンプリング」困難を克服するために、新しく明確な重要度重み付け補正を使用する。
論文 参考訳(メタデータ) (2020-03-09T05:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。