論文の概要: Reward is enough for convex MDPs
- arxiv url: http://arxiv.org/abs/2106.00661v1
- Date: Tue, 1 Jun 2021 17:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:42:36.924631
- Title: Reward is enough for convex MDPs
- Title(参考訳): Rewardは凸型MDPに十分である
- Authors: Tom Zahavy, Brendan O'Donoghue, Guillaume Desjardins and Satinder
Singh
- Abstract要約: 我々は,コンベックスMDP問題を政策とコスト(負の報酬)のプレイヤー間のmin-maxゲームとして再構成する。
コストプレーヤが生み出す非定常報酬を最大化するRLエージェントが生み出すポリシーの平均は、凸MDPに対する最適解に収束することを示す。
- 参考スコア(独自算出の注目度): 27.253870781655625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximising a cumulative reward function that is Markov and stationary, i.e.,
defined over state-action pairs and independent of time, is sufficient to
capture many kinds of goals in a Markov Decision Process (MDP) based on the
Reinforcement Learning (RL) problem formulation. However, not all goals can be
captured in this manner. Specifically, it is easy to see that Convex MDPs in
which goals are expressed as convex functions of stationary distributions
cannot, in general, be formulated in this manner. In this paper, we reformulate
the convex MDP problem as a min-max game between the policy and cost (negative
reward) players using Fenchel duality and propose a meta-algorithm for solving
it. We show that the average of the policies produced by an RL agent that
maximizes the non-stationary reward produced by the cost player converges to an
optimal solution to the convex MDP. Finally, we show that the meta-algorithm
unifies several disparate branches of reinforcement learning algorithms in the
literature, such as apprenticeship learning, variational intrinsic control,
constrained MDPs, and pure exploration into a single framework.
- Abstract(参考訳): マルコフと定常である累積報酬関数の最大化、すなわち状態-作用対上で定義され、時間に依存しないことは、強化学習(RL)問題定式化に基づくマルコフ決定過程(MDP)において多くの種類の目標を捉えるのに十分である。
しかし、この方法で全ての目標を達成できるわけではない。
具体的には、目標が定常分布の凸関数として表される凸 MDP は、一般にこの方法では定式化できないことが分かりやすい。
本稿では,Fenchel双対性を用いたポリシーとコスト(負の報酬)プレーヤー間のmin-maxゲームとして凸MDP問題を再構成し,その解決のためのメタアルゴリズムを提案する。
本研究では,コストプレーヤが生成する非定常報酬を最大化するrlエージェントが生成するポリシーの平均値が,凸mdpの最適解に収束することを示す。
最後に、メタアルゴリズムは、見習い学習、変分内在性制御、制約されたMDP、単一フレームワークへの純粋探索など、文学における強化学習アルゴリズムの様々な分岐を統一することを示す。
関連論文リスト
- Local Linearity: the Key for No-regret Reinforcement Learning in Continuous MDPs [56.237917407785545]
既存の解は非常に特定の仮定の下で機能するか、いくつかの状態において空でない境界を達成するかのいずれかである。
多くの構造的仮定は、残念なことに、時間的地平線上の必然的に避けられない指数的依存に悩まされていることが知られている。
局所線形化可能な MDP を適切な表現選択により, 軽度に滑らかな MDP をどのように表現できるかを示す。
論文 参考訳(メタデータ) (2024-10-31T16:07:22Z) - Tackling Decision Processes with Non-Cumulative Objectives using Reinforcement Learning [0.0]
我々は,非累積マルコフ決定過程を標準MDPに一般化したマッピングを導入する。
これにより、MDPがより大規模なNCMDPに直接適用されるための最適なポリシーを見つけるために開発されたすべての技術が利用可能となる。
我々は、古典的な制御、金融におけるポートフォリオ最適化、離散最適化問題など、様々なタスクのアプリケーションを示す。
論文 参考訳(メタデータ) (2024-05-22T13:01:37Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Sample Efficient Reinforcement Learning In Continuous State Spaces: A
Perspective Beyond Linearity [50.38337893712897]
線形性を仮定しないMDP上の構造条件であるEPW(Effective Planning Window)条件を導入する。
EPW条件は、この条件を満たすMDPを確実に解くアルゴリズムを提供することで、サンプル効率のよいRLを許容することを示した。
また, EPW のような条件の必要性も示し, わずかに非線形な単純な MDP を効率的にサンプリングできないことを示した。
論文 参考訳(メタデータ) (2021-06-15T00:06:59Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - A Relation Analysis of Markov Decision Process Frameworks [26.308541799686505]
機械学習における異なる決定プロセス(MDP)フレームワークと計量経済学文献との関係について検討する。
エントロピー正規化 MDP は MDP モデルと同値であり,一般正規化 MDP により厳密に仮定されることを示す。
論文 参考訳(メタデータ) (2020-08-18T09:27:26Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。