論文の概要: Gaussian Process Policy Iteration with Additive Schwarz Acceleration for Forward and Inverse HJB and Mean Field Game Problems
- arxiv url: http://arxiv.org/abs/2505.00909v1
- Date: Thu, 01 May 2025 23:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.862401
- Title: Gaussian Process Policy Iteration with Additive Schwarz Acceleration for Forward and Inverse HJB and Mean Field Game Problems
- Title(参考訳): 前向きおよび逆HJBと平均フィールドゲーム問題に対する加法シュワルツ加速度によるガウス的プロセスポリシー反復
- Authors: Xianjin Yang, Jingguo Zhang,
- Abstract要約: ハミルトン-ヤコビ-ベルマン方程式と平均場ゲームを解くためのポリシー反復フレームワークを提案する。
ポリシイテレーションは、固定制御ポリシの下での値関数の解決と、結果の値関数に基づいてポリシーを更新とを交互に行う手順として定式化される。
コンバージェンスを改善するために、各ポリシー更新に続くプレコンディショニングステップとして、加法シュワルツ加速度を組み込む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a Gaussian Process (GP)-based policy iteration framework for addressing both forward and inverse problems in Hamilton--Jacobi--Bellman (HJB) equations and mean field games (MFGs). Policy iteration is formulated as an alternating procedure between solving the value function under a fixed control policy and updating the policy based on the resulting value function. By exploiting the linear structure of GPs for function approximation, each policy evaluation step admits an explicit closed-form solution, eliminating the need for numerical optimization. To improve convergence, we incorporate the additive Schwarz acceleration as a preconditioning step following each policy update. Numerical experiments demonstrate the effectiveness of Schwarz acceleration in improving computational efficiency.
- Abstract(参考訳): 本稿では,ハミルトン-ヤコビ-ベルマン方程式(HJB)と平均場ゲーム(MFG)の前方および逆問題に対処するガウス過程(GP)に基づくポリシー反復フレームワークを提案する。
ポリシイテレーションは、固定制御ポリシの下での値関数の解決と、結果の値関数に基づいてポリシーを更新とを交互に行う手順として定式化される。
関数近似のためにGPの線形構造を利用することにより、各ポリシー評価ステップは明示的な閉形式解を認め、数値最適化の必要性をなくす。
コンバージェンスを改善するために、各ポリシー更新に続くプレコンディショニングステップとして、加法シュワルツ加速度を組み込む。
シュワルツ加速の計算効率向上効果を数値実験により実証した。
関連論文リスト
- Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - A general class of surrogate functions for stable and efficient
reinforcement learning [45.31904153659212]
本稿では,機能ミラーの上昇に基づく一般的なフレームワークを提案する。
既存のサロゲート機能では共有されていないプロパティである,政策改善保証を可能にするサロゲート関数を構築した。
提案したフレームワークは,PPOの堅牢性や効率性を実証的に示す改良版も提案している。
論文 参考訳(メタデータ) (2021-08-12T16:19:19Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。