論文の概要: MDP Geometry, Normalization and Reward Balancing Solvers
- arxiv url: http://arxiv.org/abs/2407.06712v3
- Date: Sun, 10 Nov 2024 08:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:03:29.553774
- Title: MDP Geometry, Normalization and Reward Balancing Solvers
- Title(参考訳): MDP幾何と正規化とリワードバランシング解
- Authors: Arsenii Mustafin, Aleksei Pakharev, Alex Olshevsky, Ioannis Ch. Paschalidis,
- Abstract要約: マルコフ決定過程(英: Markov Decision Process、MDP)は、シーケンシャルな意思決定問題の数学的モデルである。
本稿では, 自然正規化手順によるMDPの幾何学的解釈を新たに提案する。これにより, 任意の政策に対する行動の利点を変えることなく, それぞれの状態における値関数を調整できる。
- 参考スコア(独自算出の注目度): 15.627546283580166
- License:
- Abstract: The Markov Decision Process (MDP) is a widely used mathematical model for sequential decision-making problems. In this paper, we present a new geometric interpretation of MDPs with a natural normalization procedure that allows us to adjust the value function at each state without altering the advantage of any action with respect to any policy. This procedure enables the development of a novel class of algorithms for solving MDPs that find optimal policies without explicitly computing policy values. The new algorithms we propose for different settings achieve and, in some cases, improve upon state-of-the-art sample complexity results.
- Abstract(参考訳): マルコフ決定過程(英: Markov Decision Process、MDP)は、シーケンシャルな意思決定問題の数学的モデルである。
本稿では,各状態における値関数の調整を可能にする自然な正規化手順によるMDPの幾何学的解釈について述べる。
この方法では、ポリシー値を明示的に計算することなく最適なポリシーを見出すMDPを解くための新しいアルゴリズムのクラスを開発することができる。
提案する新しいアルゴリズムは、異なる設定を実現し、場合によっては、最先端のサンプル複雑性結果を改善する。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Solving Multi-Model MDPs by Coordinate Ascent and Dynamic Programming [8.495921422521068]
マルチモデルマルコフ決定プロセス(MMDP)は、コンピューティングポリシーのための有望なフレームワークである。
MMDP は,MDP モデルの分布よりも期待されるリターンを最大化する政策を見出すことを目的としている。
本稿では,コーディネート・アセント法と,MMDPを解く動的プログラミングアルゴリズムを組み合わせたCADPを提案する。
論文 参考訳(メタデータ) (2024-07-08T18:47:59Z) - Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes [8.601670707452083]
マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗によって引き起こされる長年にわたる課題である。
本研究では, 定常平均値と分散値の組合せを組み合わさって, 無限水平非分散MDPの最適解を求める手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T12:17:43Z) - Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T15:26:49Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - A Survey for Solving Mixed Integer Programming via Machine Learning [76.04988886859871]
本稿では、混合整数(MIP)問題を解くための機械学習の動向について調査する。
本稿では、まず、MIPの定式化とプリミナリーと、MIPを解くための従来のアルゴリズムについて紹介する。
そして、機械学習とMIPアルゴリズムの異なる統合をさらに促進することを提唱する。
論文 参考訳(メタデータ) (2022-03-06T05:03:37Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - CP-MDP: A CANDECOMP-PARAFAC Decomposition Approach to Solve a Markov
Decision Process Multidimensional Problem [21.79259092920586]
テンソル分解法を用いて多次元問題に対するMDPソルバを開発する。
われわれのアプローチは、メモリを大幅に減らして、より大きな問題を計算できることを示した。
論文 参考訳(メタデータ) (2021-02-27T21:33:19Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。