論文の概要: Robustness Analysis of POMDP Policies to Observation Perturbations
- arxiv url: http://arxiv.org/abs/2604.21256v1
- Date: Thu, 23 Apr 2026 03:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.291833
- Title: Robustness Analysis of POMDP Policies to Observation Perturbations
- Title(参考訳): 観測摂動に対するPMDPポリシのロバスト性解析
- Authors: Benjamin Kraske, Qi Heng Ho, Federico Rossi, Morteza Lahijanian, Zachary Sunberg,
- Abstract要約: 本研究は,POMDP観測モデルにおける偏差に対するロバスト性について研究する。
我々は,POMDPの観測モデルにおける最大偏差を決定するために,ポリシー観測ロバストネス問題を導入する。
本稿では,粘着型と非粘着型の両方に対して,音質と収束性を保証するアルゴリズムであるRobust Interval Searchを提案する。
- 参考スコア(独自算出の注目度): 12.74304759862804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policies for Partially Observable Markov Decision Processes (POMDPs) are often designed using a nominal system model. In practice, this model can deviate from the true system during deployment due to factors such as calibration drift or sensor degradation, leading to unexpected performance degradation. This work studies policy robustness against deviations in the POMDP observation model. We introduce the Policy Observation Robustness Problem: to determine the maximum tolerable deviation in a POMDP's observation model that guarantees the policy's value remains above a specified threshold. We analyze two variants: the sticky variant, where deviations are dependent on state and actions, and the non-sticky variant, where they can be history-dependent. We show that the Policy Observation Robustness Problem can be formulated as a bi-level optimization problem in which the inner optimization is monotonic in the size of the observation deviation. This enables efficient solutions using root-finding algorithms in the outer optimization. For the non-sticky variant, we show that when policies are represented with finite-state controllers (FSCs) it is sufficient to consider observations which depend on nodes in the FSC rather than full histories. We present Robust Interval Search, an algorithm with soundness and convergence guarantees, for both the sticky and non-sticky variants. We show this algorithm has polynomial time complexity in the non-sticky variant and at most exponential time complexity in the sticky variant. We provide experimental results validating and demonstrating the scalability of implementations of Robust Interval Search to POMDP problems with tens of thousands of states. We also provide case studies from robotics and operations research which demonstrate the practical utility of the problem and algorithms.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)のポリシーは、しばしば名目上のシステムモデルを用いて設計される。
実際には、このモデルはキャリブレーションドリフトやセンサ劣化などの要因により、配置中の真のシステムから逸脱し、予期せぬ性能劣化を引き起こす。
本研究は,POMDP観測モデルにおける偏差に対するロバスト性について研究する。
本稿では,PMDPの観測モデルにおける許容可能な最大偏差を決定するためのポリシー観測ロバストネス問題を紹介する。
我々は2つの変種を解析する: 偏差が状態と行動に依存する粘着変種と、非粘着変種、そしてそれらが歴史に依存しうる粘着変種である。
本稿では, 内部最適化が観測偏差の大きさの単調な二段階最適化問題として, ポリシー観測ロバストネス問題を定式化できることを述べる。
これにより、外部最適化におけるルートフィンディングアルゴリズムを用いた効率的な解法が実現される。
非粘着変種に対しては、ポリシーが有限状態コントローラ(FSC)で表される場合、フルヒストリーではなく、FSCのノードに依存する観測を考慮すれば十分であることを示す。
本稿では,粘着型と非粘着型の両方に対して,音質と収束性を保証するアルゴリズムであるRobust Interval Searchを提案する。
このアルゴリズムは、非スティッキー変種における多項式時間複雑性と、スティッキー変種における最も指数関数的な時間複雑性を有することを示す。
我々は,数万状態のPOMDP問題に対するロバスト区間探索の実装のスケーラビリティを検証し,実証した実験結果を提供する。
また,問題とアルゴリズムの実用性を実証するロボット工学・オペレーション研究のケーススタディも提供する。
関連論文リスト
- When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift [64.37959940809633]
時間的持続的なセンサ故障下でのPPOのロバスト性について検討する。
トランスフォーマーを用いたシーケンスポリシーは, センサ数が少ない場合でも高いリターンを保ちながら, 堅牢性, RNN, SSMよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-03-04T22:21:54Z) - Learning Robust Penetration-Testing Policies under Partial Observability: A systematic evaluation [0.28675177318965045]
セキュリティ脆弱性を特定するためのサイバー攻撃のシミュレーションである侵入テストは、シーケンシャルな意思決定の問題を提示している。
部分可観測性はマルコフ決定過程に存在するマルコフ特性を無効にする。
実世界の複雑性をよりよく反映することを目的として,異なる大きさのホストネットワーク上での部分的に観測可能な浸透試験シナリオについて検討した。
論文 参考訳(メタデータ) (2025-09-24T11:27:54Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Online POMDP Planning with Anytime Deterministic Optimality Guarantees [13.824288326240927]
近似解と最適解の間の離散POMDPに対する決定論的関係を導出する。
我々の導出は、新しいアルゴリズムセットの道を提供し、既存のアルゴリズムにアタッチできることを示します。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。