論文の概要: Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2510.09965v1
- Date: Sat, 11 Oct 2025 02:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.714468
- Title: Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes
- Title(参考訳): マルコフ決定過程における値保存状態集合に対する同型写像
- Authors: Shuo Zhao, Yongqiang Li, Yu Feng, Zhongsheng Hou, Yuanjing Feng,
- Abstract要約: ホモモルフィック・ポリシー・グラディエント(HPG)は、十分な条件下での最適な政策等価性を保証する。
EBHPGは集約によって引き起こされる計算効率と性能損失のバランスをとる。
- 参考スコア(独自算出の注目度): 32.156826903097134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State aggregation aims to reduce the computational complexity of solving Markov Decision Processes (MDPs) while preserving the performance of the original system. A fundamental challenge lies in optimizing policies within the aggregated, or abstract, space such that the performance remains optimal in the ground MDP-a property referred to as {"}optimal policy equivalence {"}. This paper presents an abstraction framework based on the notion of homomorphism, in which two Markov chains are deemed homomorphic if their value functions exhibit a linear relationship. Within this theoretical framework, we establish a sufficient condition for the equivalence of optimal policy. We further examine scenarios where the sufficient condition is not met and derive an upper bound on the approximation error and a performance lower bound for the objective function under the ground MDP. We propose Homomorphic Policy Gradient (HPG), which guarantees optimal policy equivalence under sufficient conditions, and its extension, Error-Bounded HPG (EBHPG), which balances computational efficiency and the performance loss induced by aggregation. In the experiments, we validated the theoretical results and conducted comparative evaluations against seven algorithms.
- Abstract(参考訳): 状態アグリゲーションは、元のシステムの性能を維持しながらマルコフ決定プロセス(MDP)を解く際の計算複雑性を低減することを目的としている。
基本的な課題は、集約された、あるいは抽象的な空間内のポリシーを最適化することであり、その性能は {"} 最適ポリシー等価性 {"} と呼ばれる基底 MDP-a 特性において最適である。
本稿では, 2つのマルコフ連鎖が線型関係を示すとき, 準同型とみなされる準同型の概念に基づく抽象的枠組みを提案する。
この理論の枠組みの中で、最適政策の等価性について十分な条件を確立する。
さらに, 十分な条件が満たされていない場合のシナリオを検証し, 近似誤差の上限を導出し, 地上MDPの下での目的関数に対する性能下限を導出する。
十分な条件下での最適ポリシー等価性を保証する同型ポリシー勾配(HPG)とその拡張であるエラー境界HPG(EBHPG)は,計算効率と集約による性能損失のバランスをとる。
実験では, 理論的結果を検証し, 7つのアルゴリズムとの比較評価を行った。
関連論文リスト
- Improving monotonic optimization in heterogeneous multi-agent reinforcement learning with optimal marginal deterministic policy gradient [18.64288030584699]
異種多エージェント強化学習(MARL)
逐次計算された$Q_psi*(s,a_1:i)$を、Q関数から派生した$phi_psi*(s,a_1:i)$に客観的に置き換える。
一般化Q批判(GQC)を批判関数とし、悲観的不確実性制約損失を用いて異なるQ値推定を最適化する。
論文 参考訳(メタデータ) (2025-07-14T07:16:01Z) - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - On the Estimation Performance of Generalized Power Method for
Heteroscedastic Probabilistic PCA [21.9585534723895]
我々は,少なくとも幾何的にあるしきい値に束縛されたGPM間の適切な繰り返しを仮定すると,GPMは,ある「相対分解」の残余部分であるしきい値に減少することを示す。
そこで本研究では,PCA手法を用いて,ガウス以下の雑音設定による優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-06T11:41:17Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Risk-Sensitive Markov Decision Processes with Combined Metrics of Mean
and Variance [3.062772835338966]
本稿では,長期平均値を持つ無限段階離散時間マルコフ決定過程(MDP)の最適化問題について検討する。
性能差式が導出され、任意の2つの異なるポリシーの下で、MPPの平均分散結合メトリクスの差を定量化することができる。
最適政策の必要条件と決定論的政策の最適性が導出される。
論文 参考訳(メタデータ) (2020-08-09T10:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。