論文の概要: Kernel Taylor-Based Value Function Approximation for Continuous-State
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2006.02008v1
- Date: Wed, 3 Jun 2020 01:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 18:21:32.505291
- Title: Kernel Taylor-Based Value Function Approximation for Continuous-State
Markov Decision Processes
- Title(参考訳): 連続状態マルコフ決定過程に対するカーネルテイラー値関数近似
- Authors: Junhong Xu, Kai Yin, Lantao Liu
- Abstract要約: 我々は,カーネルベースのポリシー反復アルゴリズムを提案し,連続状態マルコフ決定過程(MDP)を解く。
提案手法は, 簡易計画シナリオと現実計画シナリオの両方において, 広範囲なシミュレーションにより検証した。
- 参考スコア(独自算出の注目度): 5.894659354028797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a principled kernel-based policy iteration algorithm to solve the
continuous-state Markov Decision Processes (MDPs). In contrast to most
decision-theoretic planning frameworks, which assume fully known state
transition models, we design a method that eliminates such a strong assumption,
which is oftentimes extremely difficult to engineer in reality. To achieve
this, we first apply the second-order Taylor expansion of the value function.
The Bellman optimality equation is then approximated by a partial differential
equation, which only relies on the first and second moments of the transition
model. By combining the kernel representation of value function, we then design
an efficient policy iteration algorithm whose policy evaluation step can be
represented as a linear system of equations characterized by a finite set of
supporting states. We have validated the proposed method through extensive
simulations in both simplified and realistic planning scenarios, and the
experiments show that our proposed approach leads to a much superior
performance over several baseline methods.
- Abstract(参考訳): 我々は,連続状態マルコフ決定プロセス(mdps)を解くために,カーネルベースポリシー反復アルゴリズムを提案する。
完全に知られた状態遷移モデルを想定しているほとんどの決定論的な計画フレームワークとは対照的に、そのような強い仮定を排除する方法を設計します。
これを達成するために、まず値関数の2階テイラー展開を適用する。
ベルマン最適性方程式は、遷移モデルの第一モーメントと第二モーメントのみに依存する偏微分方程式によって近似される。
価値関数の核表現を組み合わせることで、有限個の支持状態からなる方程式の線形系としてポリシー評価ステップを表現できる効率的なポリシー反復アルゴリズムを設計する。
提案手法は,簡易かつ現実的な計画シナリオの両方において広範囲なシミュレーションにより検証し,提案手法が複数のベースライン法よりも優れた性能をもたらすことを示す。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Efficient Global Planning in Large MDPs via Stochastic Primal-Dual
Optimization [12.411844611718958]
提案手法は, 生成モデルに対する多数のクエリの後に, ほぼ最適ポリシーを出力することを示す。
提案手法は計算効率が高く,低次元パラメータベクトルでコンパクトに表現される単一のソフトマックスポリシーを出力する点が大きな利点である。
論文 参考訳(メタデータ) (2022-10-21T15:49:20Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Primal-dual regression approach for Markov decision processes with
general state and action space [0.30458514384586394]
我々は,有限時間MDPを一般状態と行動空間で解くための回帰に基づく原始双対マーチンゲールアプローチを開発した。
その結果,提案手法は値関数の高次および低次偏差近似の構築を可能にし,最適ポリシに対する厳密な近似を提供する。
論文 参考訳(メタデータ) (2022-10-01T11:48:22Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - On the implementation of a global optimization method for mixed-variable
problems [0.30458514384586394]
このアルゴリズムは、グットマンの放射基底関数と、レジスとシューメーカーの計量応答面法に基づいている。
これら2つのアルゴリズムの一般化と改良を目的としたいくつかの修正を提案する。
論文 参考訳(メタデータ) (2020-09-04T13:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。