論文の概要: Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.08734v1
- Date: Mon, 09 Feb 2026 14:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.30012
- Title: Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning
- Title(参考訳): 深部強化学習を用いた(隠れモデル)POMDPの有限状態制御
- Authors: David Hudák, Maris F. L. Galesloot, Martin Tappler, Martin Kurečka, Nils Jansen, Milan Češka,
- Abstract要約: マルコフ決定プロセス(POMDP)の解決には、不完全な状態情報の下での計算ポリシーが必要である。
我々は,脳神経政策の訓練に深層強化学習を用いたPOMDP問題解決のためのLexpopフレームワークを提案する。
我々はLexpopを拡張して、有限個のPOMDPを記述した隠れモデルPOMDP(HM-POMDP)のロバストなポリシーを計算する。
実験の結果,LexpopはPMDPやHM-POMDPの最先端の解法よりも優れていた。
- 参考スコア(独自算出の注目度): 12.28676420967728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving partially observable Markov decision processes (POMDPs) requires computing policies under imperfect state information. Despite recent advances, the scalability of existing POMDP solvers remains limited. Moreover, many settings require a policy that is robust across multiple POMDPs, further aggravating the scalability issue. We propose the Lexpop framework for POMDP solving. Lexpop (1) employs deep reinforcement learning to train a neural policy, represented by a recurrent neural network, and (2) constructs a finite-state controller mimicking the neural policy through efficient extraction methods. Crucially, unlike neural policies, such controllers can be formally evaluated, providing performance guarantees. We extend Lexpop to compute robust policies for hidden-model POMDPs (HM-POMDPs), which describe finite sets of POMDPs. We associate every extracted controller with its worst-case POMDP. Using a set of such POMDPs, we iteratively train a robust neural policy and consequently extract a robust controller. Our experiments show that on problems with large state spaces, Lexpop outperforms state-of-the-art solvers for POMDPs as well as HM-POMDPs.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)の解決には、不完全な状態情報の下での計算ポリシーが必要である。
近年の進歩にもかかわらず、既存のPOMDPソルバのスケーラビリティは依然として限られている。
さらに、多くの設定では、複数のPOMDPで堅牢なポリシーを必要とし、スケーラビリティの問題をさらに悪化させます。
我々は,POMDP問題解決のためのLexpopフレームワークを提案する。
レックスポップ(1)は、繰り返しニューラルネットワークで表される神経政策の訓練に深層強化学習を用い、(2)効率的な抽出方法により、神経政策を模倣する有限状態制御器を構築する。
重要なことは、ニューラルネットワークのポリシーとは異なり、そのようなコントローラは公式に評価され、性能保証を提供する。
我々はLexpopを拡張して、有限個のPOMDPを記述した隠れモデルPOMDP(HM-POMDP)のロバストなポリシーを計算する。
抽出したすべてのコントローラと最悪のPOMDPを関連付ける。
このようなPOMDPの集合を用いて、我々は頑健なニューラルポリシーを反復的に訓練し、その結果、頑健なコントローラを抽出する。
実験の結果,Lexpop は HM-POMDP だけでなく POMDP の最先端の解法よりも優れていることがわかった。
関連論文リスト
- Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs [7.447371788025412]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定において特定の環境をモデル化する。
我々は,HM-POMDPが異なる環境モデル,すなわち共有行動と観測空間を持つPOMDPをキャプチャすることを示す。
ポリシーが与えられたHM-POMDPに対して、それぞれのPOMDPに対して十分な性能を達成した場合、ロバストである。
論文 参考訳(メタデータ) (2025-05-14T16:15:58Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z) - Stochastic Finite State Control of POMDPs with LTL Specifications [14.163899014007647]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下での自律的な意思決定のためのモデリングフレームワークを提供する。
本稿では,POMDPに対する準最適有限状態制御器(sFSC)の合成に関する定量的問題について考察する。
本稿では,sFSC サイズが制御される有界ポリシアルゴリズムと,連続的な繰り返しにより制御器の性能が向上する任意の時間アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T18:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。