論文の概要: Gaussian Process Policy Iteration with Additive Schwarz Acceleration for Forward and Inverse HJB and Mean Field Game Problems
- arxiv url: http://arxiv.org/abs/2505.00909v1
- Date: Thu, 01 May 2025 23:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.862401
- Title: Gaussian Process Policy Iteration with Additive Schwarz Acceleration for Forward and Inverse HJB and Mean Field Game Problems
- Title(参考訳): 前向きおよび逆HJBと平均フィールドゲーム問題に対する加法シュワルツ加速度によるガウス的プロセスポリシー反復
- Authors: Xianjin Yang, Jingguo Zhang,
- Abstract要約: ハミルトン-ヤコビ-ベルマン方程式と平均場ゲームを解くためのポリシー反復フレームワークを提案する。
ポリシイテレーションは、固定制御ポリシの下での値関数の解決と、結果の値関数に基づいてポリシーを更新とを交互に行う手順として定式化される。
コンバージェンスを改善するために、各ポリシー更新に続くプレコンディショニングステップとして、加法シュワルツ加速度を組み込む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a Gaussian Process (GP)-based policy iteration framework for addressing both forward and inverse problems in Hamilton--Jacobi--Bellman (HJB) equations and mean field games (MFGs). Policy iteration is formulated as an alternating procedure between solving the value function under a fixed control policy and updating the policy based on the resulting value function. By exploiting the linear structure of GPs for function approximation, each policy evaluation step admits an explicit closed-form solution, eliminating the need for numerical optimization. To improve convergence, we incorporate the additive Schwarz acceleration as a preconditioning step following each policy update. Numerical experiments demonstrate the effectiveness of Schwarz acceleration in improving computational efficiency.
- Abstract(参考訳): 本稿では,ハミルトン-ヤコビ-ベルマン方程式(HJB)と平均場ゲーム(MFG)の前方および逆問題に対処するガウス過程(GP)に基づくポリシー反復フレームワークを提案する。
ポリシイテレーションは、固定制御ポリシの下での値関数の解決と、結果の値関数に基づいてポリシーを更新とを交互に行う手順として定式化される。
関数近似のためにGPの線形構造を利用することにより、各ポリシー評価ステップは明示的な閉形式解を認め、数値最適化の必要性をなくす。
コンバージェンスを改善するために、各ポリシー更新に続くプレコンディショニングステップとして、加法シュワルツ加速度を組み込む。
シュワルツ加速の計算効率向上効果を数値実験により実証した。
関連論文リスト
- Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。
本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-25T13:39:45Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - FORESEE: Prediction with Expansion-Compression Unscented Transform for
Online Policy Optimization [8.97438370260135]
本研究では,オンライン政策最適化問題のクラスを解くために,拡張圧縮アンセント変換(Expansion-Compression Unscented Transform)と呼ばれる状態予測手法を提案する。
提案アルゴリズムは状態依存分布を通じて有限個のシグマ点を伝播し,各段階におけるシグマ点数の増加を規定する。
その性能はモンテカルロに匹敵するが、計算コストははるかに低い。
論文 参考訳(メタデータ) (2022-09-26T12:47:08Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - A general class of surrogate functions for stable and efficient
reinforcement learning [45.31904153659212]
本稿では,機能ミラーの上昇に基づく一般的なフレームワークを提案する。
既存のサロゲート機能では共有されていないプロパティである,政策改善保証を可能にするサロゲート関数を構築した。
提案したフレームワークは,PPOの堅牢性や効率性を実証的に示す改良版も提案している。
論文 参考訳(メタデータ) (2021-08-12T16:19:19Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。