論文の概要: Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications
- arxiv url: http://arxiv.org/abs/2004.00857v1
- Date: Thu, 2 Apr 2020 08:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:36:52.914776
- Title: Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications
- Title(参考訳): 平均報酬調整割引強化学習--実世界応用のためのほぼブラックウェル最適政策
- Authors: Manuel Schneckenreither
- Abstract要約: 強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although in recent years reinforcement learning has become very popular the
number of successful applications to different kinds of operations research
problems is rather scarce. Reinforcement learning is based on the well-studied
dynamic programming technique and thus also aims at finding the best stationary
policy for a given Markov Decision Process, but in contrast does not require
any model knowledge. The policy is assessed solely on consecutive states (or
state-action pairs), which are observed while an agent explores the solution
space. The contributions of this paper are manifold. First we provide deep
theoretical insights to the widely applied standard discounted reinforcement
learning framework, which give rise to the understanding of why these
algorithms are inappropriate when permanently provided with non-zero rewards,
such as costs or profit. Second, we establish a novel near-Blackwell-optimal
reinforcement learning algorithm. In contrary to former method it assesses the
average reward per step separately and thus prevents the incautious combination
of different types of state values. Thereby, the Laurent Series expansion of
the discounted state values forms the foundation for this development and also
provides the connection between the two approaches. Finally, we prove the
viability of our algorithm on a challenging problem set, which includes a
well-studied M/M/1 admission control queuing system. In contrast to standard
discounted reinforcement learning our algorithm infers the optimal policy on
all tested problems. The insights are that in the operations research domain
machine learning techniques have to be adapted and advanced to successfully
apply these methods in our settings.
- Abstract(参考訳): 近年は強化学習が盛んになっているが、様々な運用研究問題への応用例が少なからず少ない。
強化学習はよく研究された動的プログラミング手法に基づいており、与えられたマルコフ決定プロセスのための最良の定常ポリシーを見つけることを目的としているが、対照的にモデル知識は必要ない。
このポリシーは、エージェントが解空間を探索している間に観察される連続状態(または状態-作用対)にのみ評価される。
本論文の貢献は多様体である。
まず、広く適用されている標準割引強化学習フレームワークに深い理論的洞察を与え、コストや利益などの非ゼロ報酬を永久に提供した場合に、これらのアルゴリズムが不適切である理由を理解する。
次に,近黒ウェル最適強化学習アルゴリズムを提案する。
従来の手法とは対照的に、ステップ毎の平均報酬を別々に評価し、異なるタイプの状態値の不正な組み合わせを防止する。
これにより、ディスカウントされた状態値のローラン級数展開は、この発展の基礎を形成し、2つのアプローチ間の接続を提供する。
最後に,M/M/1入力制御待ち行列システムを含む問題集合上で,本アルゴリズムの有効性を実証する。
標準割引強化学習とは対照的に、アルゴリズムはテストされたすべての問題に対する最適なポリシーを推測する。
この知見は、オペレーション研究領域では、これらの手法を我々の設定にうまく適用するために、機械学習テクニックを適応し、高度化する必要があるということである。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。