論文の概要: Average-Reward Learning and Planning with Options
- arxiv url: http://arxiv.org/abs/2110.13855v1
- Date: Tue, 26 Oct 2021 16:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:48:07.345705
- Title: Average-Reward Learning and Planning with Options
- Title(参考訳): 平均回帰学習とオプションによる計画
- Authors: Yi Wan, Abhishek Naik, Richard S. Sutton
- Abstract要約: 我々は,減算マルコフ決定過程(MDP)から平均回帰MDPまで,強化学習における時間的抽象化のためのオプションフレームワークを拡張した。
コントリビューションには、一般の外部選択型学習アルゴリズム、学習値とモデルのためのオプション内アルゴリズム、および学習アルゴリズムのサンプルベース計画亜種が含まれている。
- 参考スコア(独自算出の注目度): 9.258958295945467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend the options framework for temporal abstraction in reinforcement
learning from discounted Markov decision processes (MDPs) to average-reward
MDPs. Our contributions include general convergent off-policy inter-option
learning algorithms, intra-option algorithms for learning values and models, as
well as sample-based planning variants of our learning algorithms. Our
algorithms and convergence proofs extend those recently developed by Wan, Naik,
and Sutton. We also extend the notion of option-interrupting behavior from the
discounted to the average-reward formulation. We show the efficacy of the
proposed algorithms with experiments on a continuing version of the Four-Room
domain.
- Abstract(参考訳): 我々は,減算マルコフ決定過程(MDP)から平均回帰MDPへの強化学習における時間的抽象化の枠組みを拡張した。
コントリビューションには、一般の外部選択型学習アルゴリズム、学習値とモデルのためのオプション内アルゴリズム、および学習アルゴリズムのサンプルベースの計画バリエーションが含まれている。
我々のアルゴリズムと収束証明は、最近Wan, Naik, Suttonによって開発されたものを拡張する。
また,オプション中断行動の概念を,ディスカウントから平均回帰定式化まで拡張する。
本稿では,提案アルゴリズムの有効性を,Four-Roomドメインの継続バージョンに対する実験により示す。
関連論文リスト
- Horseshoe-type Priors for Independent Component Estimation [0.4987670632802289]
独立成分推定(ICE)は現代の機械学習に多くの応用がある。
ホースシュー型プリエントはスケーラブルなアルゴリズムを提供するために使用される。
条件付き後部手法とエンベロープ方式の最適化方法について述べる。
論文 参考訳(メタデータ) (2024-06-24T18:18:58Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
モデルに基づく手法では、MVPアルゴリズムの変種を設計する。
特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文 参考訳(メタデータ) (2023-01-31T06:54:06Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Safe Learning and Optimization Techniques: Towards a Survey of the State
of the Art [3.6954802719347413]
安全な学習と最適化は、できるだけ安全でない入力ポイントの評価を避ける学習と最適化の問題に対処します。
安全強化学習アルゴリズムに関する包括的な調査は2015年に発表されたが、アクティブラーニングと最適化に関する関連研究は考慮されなかった。
本稿では,強化学習,ガウス過程の回帰と分類,進化的アルゴリズム,アクティブラーニングなど,様々な分野のアルゴリズムについて概説する。
論文 参考訳(メタデータ) (2021-01-23T13:58:09Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。