論文の概要: The Value Function Semi-Algebraic Set in Partially Observable Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2606.03048v1
- Date: Tue, 02 Jun 2026 02:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.700805
- Title: The Value Function Semi-Algebraic Set in Partially Observable Markov Decision Processes
- Title(参考訳): 部分観測可能なマルコフ決定過程における値関数半代数集合
- Authors: Ryan A. Anderson, Guido Montufar,
- Abstract要約: 無限水平部分観測可能なマルコフ決定過程(POMDP)における実現可能な値関数の幾何学を,メモリレスポリシの下で検討する。
我々の主な貢献は、半代数集合として実現可能な値関数の集合を特徴づけることである。
我々の幾何学的特徴は、MDPとPOMDPの双方における政策最適化の展望に新たな洞察を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the geometry of feasible value functions in infinite-horizon partially observable Markov decision processes (POMDPs) under memoryless stochastic policies. Our main contribution is a characterization of the feasible set of value functions as a semi-algebraic set, defined by explicit polynomial inequalities determined by the transition dynamics, observation kernel, and reward structure of the POMDP. This result extends prior work for fully observable Markov decision processes, where the feasible set is known to be a polytope, to the substantially more intricate partially observable setting. In contrast to the polyhedral structure arising in MDPs, partial observability induces fundamentally nonlinear constraints, leading to a richer and more complex geometric structure. Our geometric characterization provides new insight into the landscape of policy optimization in both MDPs and POMDPs, and reveals qualitative phenomena unique to partial observability, including the emergence of isolated local maximizers of the long-term reward and their dependence on the initial state distribution.
- Abstract(参考訳): 無限水平部分観測可能なマルコフ決定過程(POMDP)における実現可能な値関数の幾何学を,メモリレス確率的ポリシの下で研究する。
我々の主な貢献は、遷移力学、観察核、およびPOMDPの報酬構造によって決定される明示的な多項式の不等式によって定義される半代数集合として実現可能な値関数の集合を特徴づけることである。
この結果は、実現可能な集合がポリトープであることが知られている完全可観測マルコフ決定過程に対する事前の作業を、より複雑な部分可観測集合へと拡張する。
MDPで生じる多面体構造とは対照的に、部分可観測性は基本的に非線形な制約を生じさせ、よりリッチで複雑な幾何学構造をもたらす。
我々の幾何学的特徴は、MDPとPMDPの双方における政策最適化の展望に新たな洞察を与え、長期的報酬の孤立した局所的最大化器の出現や初期状態分布への依存など、部分的可観測性に特有の定性的現象を明らかにする。
関連論文リスト
- Horizon-Free Regret for Linear Markov Decision Processes [92.02082223856479]
最近の一連の研究は、強化学習における残念な境界が(ほぼ)計画的地平から独立していることを示している。
我々は、人気のある線形マルコフ決定過程(MDP)設定に対して、最初の地平面自由境界を与える。
遷移モデルを明示的に推定し、不均一な値関数を計算する先行研究とは対照的に、直接値関数と信頼集合を推定する。
論文 参考訳(メタデータ) (2024-03-15T23:50:58Z) - Abstraction-based Probabilistic Stability Analysis of Polyhedral
Probabilistic Hybrid Systems [6.574517227976925]
ハイブリッドシステムのサブクラスであるポリヘドラル確率ハイブリッドシステム(PPHS)の確率的安定性解析の問題点を考察する。
有限マルコフ決定過程(MDP)を構成する抽象的分析フレームワークを提案する。
実験により, PPHSの様々な寸法と大きさの確率安定性の検証に成功し, 本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-03-29T15:29:30Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - The Geometry of Memoryless Stochastic Policy Optimization in
Infinite-Horizon POMDPs [0.0]
我々は、無限水平部分観測可能な決定プロセスにおいて、最高のメモリレスポリシーを見つけるという問題を考察する。
本研究では, 減算された状態-作用周波数と予測累積報酬が政策の関数であり, その度合いは部分観測可能性の度合いによって決定されることを示す。
論文 参考訳(メタデータ) (2021-10-14T14:42:09Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。