論文の概要: MDP Geometry, Normalization and Reward Balancing Solvers
- arxiv url: http://arxiv.org/abs/2407.06712v3
- Date: Sun, 10 Nov 2024 08:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:03:29.553774
- Title: MDP Geometry, Normalization and Reward Balancing Solvers
- Title(参考訳): MDP幾何と正規化とリワードバランシング解
- Authors: Arsenii Mustafin, Aleksei Pakharev, Alex Olshevsky, Ioannis Ch. Paschalidis,
- Abstract要約: マルコフ決定過程(英: Markov Decision Process、MDP)は、シーケンシャルな意思決定問題の数学的モデルである。
本稿では, 自然正規化手順によるMDPの幾何学的解釈を新たに提案する。これにより, 任意の政策に対する行動の利点を変えることなく, それぞれの状態における値関数を調整できる。
- 参考スコア(独自算出の注目度): 15.627546283580166
- License:
- Abstract: The Markov Decision Process (MDP) is a widely used mathematical model for sequential decision-making problems. In this paper, we present a new geometric interpretation of MDPs with a natural normalization procedure that allows us to adjust the value function at each state without altering the advantage of any action with respect to any policy. This procedure enables the development of a novel class of algorithms for solving MDPs that find optimal policies without explicitly computing policy values. The new algorithms we propose for different settings achieve and, in some cases, improve upon state-of-the-art sample complexity results.
- Abstract(参考訳): マルコフ決定過程(英: Markov Decision Process、MDP)は、シーケンシャルな意思決定問題の数学的モデルである。
本稿では,各状態における値関数の調整を可能にする自然な正規化手順によるMDPの幾何学的解釈について述べる。
この方法では、ポリシー値を明示的に計算することなく最適なポリシーを見出すMDPを解くための新しいアルゴリズムのクラスを開発することができる。
提案する新しいアルゴリズムは、異なる設定を実現し、場合によっては、最先端のサンプル複雑性結果を改善する。
関連論文リスト
- Solving Multi-Model MDPs by Coordinate Ascent and Dynamic Programming [8.495921422521068]
マルチモデルマルコフ決定プロセス(MMDP)は、コンピューティングポリシーのための有望なフレームワークである。
MMDP は,MDP モデルの分布よりも期待されるリターンを最大化する政策を見出すことを目的としている。
本稿では,コーディネート・アセント法と,MMDPを解く動的プログラミングアルゴリズムを組み合わせたCADPを提案する。
論文 参考訳(メタデータ) (2024-07-08T18:47:59Z) - Towards Instance-Optimality in Online PAC Reinforcement Learning [28.156332484814616]
そこで本研究では,PACの同定に要するサンプルの複雑さに対する最初のインスタンス依存下限について提案する。
我々は、citeWagenmaker22linearMDPのPEDELアルゴリズムのサンプル複雑さがこの下界に近づいたことを実証する。
論文 参考訳(メタデータ) (2023-10-31T19:26:36Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes [8.601670707452083]
マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗によって引き起こされる長年にわたる課題である。
本研究では, 定常平均値と分散値の組合せを組み合わさって, 無限水平非分散MDPの最適解を求める手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T12:17:43Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。