Fugu-MT 論文翻訳(概要): Pessimistic Iterative Planning for Robust POMDPs

論文の概要: Pessimistic Iterative Planning for Robust POMDPs

arxiv url: http://arxiv.org/abs/2408.08770v2
Date: Mon, 30 Sep 2024 15:30:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 07:18:07.184057
Title: Pessimistic Iterative Planning for Robust POMDPs
Title（参考訳）: ロバストPOMDPの悲観的反復計画
Authors: Maris F. L. Galesloot, Marnix Suilen, Thiago D. Simão, Steven Carr, Matthijs T. J. Spaan, Ufuk Topcu, Nils Jansen,
Abstract要約: 堅牢なPOMDPのポリシーは、部分的な可観測性のためにメモリベースでなければならない。我々は,堅牢なPOMDPのための堅牢なメモリベースのポリシーを見出すための悲観的反復計画(PIP)フレームワークを提案する。それぞれ、rFSCNetは、敵POMDPに最適化された監督ポリシーを使用して、繰り返しニューラルネットワークを介してFSCを見つける。
参考スコア（独自算出の注目度）: 33.73695799565586
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robust partially observable Markov decision processes (robust POMDPs) extend classical POMDPs to handle additional uncertainty on the transition and observation probabilities via so-called uncertainty sets. Policies for robust POMDPs must not only be memory-based to account for partial observability but also robust against model uncertainty to account for the worst-case instances from the uncertainty sets. We propose the pessimistic iterative planning (PIP) framework, which finds robust memory-based policies for robust POMDPs. PIP alternates between two main steps: (1) selecting an adversarial (non-robust) POMDP via worst-case probability instances from the uncertainty sets; and (2) computing a finite-state controller (FSC) for this adversarial POMDP. We evaluate the performance of this FSC on the original robust POMDP and use this evaluation in step (1) to select the next adversarial POMDP. Within PIP, we propose the rFSCNet algorithm. In each iteration, rFSCNet finds an FSC through a recurrent neural network by using supervision policies optimized for the adversarial POMDP. The empirical evaluation in four benchmark environments showcases improved robustness against several baseline methods and competitive performance compared to a state-of-the-art robust POMDP solver.
Abstract（参考訳）: ロバストな部分的に観測可能なマルコフ決定過程 (robust POMDPs) は古典的なPOMDPを拡張して、いわゆる不確実性集合による遷移と観測確率に関するさらなる不確実性を扱う。堅牢なPOMDPのポリシーは、部分的な可観測性を考慮するためにメモリベースであるだけでなく、不確実性セットから最悪のケースを考慮に入れるために、モデルの不確実性に対して堅牢である必要がある。我々は,堅牢なPOMDPに対して,堅牢なメモリベースのポリシーを見出すための悲観的反復計画(PIP)フレームワークを提案する。 PIPは、(1)不確実性集合から最悪のケースの確率インスタンスを介して逆(非ローバスト)のPOMDPを選択すること、(2)この逆のPOMDPに対して有限状態コントローラ(FSC)を計算すること、の2つの主要なステップを交互に行う。元の頑健なPOMDPに対して,このFCCの性能を評価し,ステップ(1)で次の逆POMDPを選択する。 PIP内ではrFSCNetアルゴリズムを提案する。各イテレーションにおいて、rFSCNetは、敵POMDPに最適化された監督ポリシーを使用して、リカレントニューラルネットワークを介してFSCを見つける。 4つのベンチマーク環境での実証的な評価は、最先端の堅牢なPOMDPソルバと比較して、いくつかのベースライン手法に対する堅牢性と競争性能の向上を示している。

関連論文リスト

Sequential Monte Carlo for Policy Optimization in Continuous POMDPs [9.690099639375456]
連続的部分観測可能なマルコフ決定プロセス(POMDP)のための新しいポリシー最適化フレームワークを提案する。本手法は,非マルコフ的ファインマン-カックモデルにおいて,政策学習を確率論的推論とみなす。提案手法の有効性を,標準連続ポデムPベンチマークで実証する。
論文参考訳（メタデータ） (2025-05-22T14:45:46Z)
Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs [7.447371788025412]
ポリシーが与えられたHM-POMDPに対して、それぞれのPOMDPに対して十分な性能を達成した場合、ロバストである。提案手法は,POMDPよりも堅牢で,より汎用性の高いポリシーを提示する。
論文参考訳（メタデータ） (2025-05-14T16:15:58Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文参考訳（メタデータ） (2024-06-23T16:22:40Z)
Recursively-Constrained Partially Observable Markov Decision Processes [13.8724466775267]
C-POMDPは連続的な決定ステップに対して最適なサブ構造特性に反することを示す。 C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。本稿では,C-POMDPに履歴に依存したコスト制約を課す再帰的制約付きPOMDPを提案する。
論文参考訳（メタデータ） (2023-10-15T00:25:07Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。また,損失関数の設計を支援する理論的正当性も提供する。
論文参考訳（メタデータ） (2023-06-04T01:59:40Z)
Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。 P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文参考訳（メタデータ） (2023-05-16T17:58:05Z)
Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。 POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文参考訳（メタデータ） (2022-10-10T21:11:55Z)
Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文参考訳（メタデータ） (2021-12-31T09:50:46Z)
Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。 1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。 2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文参考訳（メタデータ） (2021-04-28T14:23:38Z)
Near Optimality of Finite Memory Feedback Policies in Partially Observed Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文参考訳（メタデータ） (2020-10-15T00:37:51Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。