論文の概要: Set-based value operators for non-stationary Markovian environments
- arxiv url: http://arxiv.org/abs/2207.07271v3
- Date: Tue, 8 Aug 2023 14:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 17:53:22.380118
- Title: Set-based value operators for non-stationary Markovian environments
- Title(参考訳): 非定常マルコフ環境に対する集合ベース値演算子
- Authors: Sarah H.Q. Li, Assal\'e Adj\'e, Pierre-Lo\"ic Garoche, Beh\c{c}et
A\c{c}{\i}kme\c{s}e
- Abstract要約: 本稿では,有限状態マルコフ決定過程(MDP)を,コンパクトな集合における不確実なパラメータで解析する。
我々は、集合ベースの固定点理論により、頑健なMDPの結果を再検討する。
惑星探査と成層圏ステーション維持における確率論的経路計画問題に対する新しい保証を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper analyzes finite state Markov Decision Processes (MDPs) with
uncertain parameters in compact sets and re-examines results from robust MDP
via set-based fixed point theory. To this end, we generalize the Bellman and
policy evaluation operators to contracting operators on the value function
space and denote them as \emph{value operators}. We lift these value operators
to act on \emph{sets} of value functions and denote them as \emph{set-based
value operators}. We prove that the set-based value operators are
\emph{contractions} in the space of compact value function sets. Leveraging
insights from set theory, we generalize the rectangularity condition in classic
robust MDP literature to a containment condition for all value operators, which
is weaker and can be applied to a larger set of parameter-uncertain MDPs and
contracting operators in dynamic programming. We prove that both the
rectangularity condition and the containment condition sufficiently ensure that
the set-based value operator's fixed point set contains its own extrema
elements. For convex and compact sets of uncertain MDP parameters, we show
equivalence between the classic robust value function and the supremum of the
fixed point set of the set-based Bellman operator. Under dynamically changing
MDP parameters in compact sets, we prove a set convergence result for value
iteration, which otherwise may not converge to a single value function.
Finally, we derive novel guarantees for probabilistic path-planning problems in
planet exploration and stratospheric station-keeping.
- Abstract(参考訳): 本稿では,有限状態マルコフ決定過程(MDPs)をコンパクトな集合における不確かさパラメータで解析し,集合ベースの固定点理論による堅牢なMDPの結果を再検討する。
この目的のために、ベルマンとポリシー評価演算子を値関数空間上の収縮作用素に一般化し、それらを 'emph{value operator} と表す。
これらの値演算子は値関数の \emph{sets} に作用し、それらを \emph{set-based value operator} と表す。
集合ベースの値作用素がコンパクト値関数集合の空間において \emph{contractions} であることを証明する。
集合論からの洞察を生かして、古典ロバストなmdp文献における矩形性条件を、より弱く、動的計画法においてパラメータ不明なmdpと契約演算子のより大きな集合に適用できる全ての値演算子の封じ込め条件に一般化する。
矩形条件と包含条件の両方が、集合ベースの値演算子の固定点集合が自身のエクストリーム要素を含むことを十分に保証する。
不確実な MDP パラメータの凸集合とコンパクト集合に対して、古典的ロバスト値関数と集合ベースのベルマン作用素の固定点集合の上限との同値性を示す。
コンパクト集合における動的に変化するMDPパラメータの下では、値反復に対する集合収束結果が証明され、そうでなければ単一の値関数に収束しない。
最後に,惑星探査と成層圏観測における確率的経路計画問題に対する新たな保証を得る。
関連論文リスト
- Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Feasible Adversarial Robust Reinforcement Learning for Underspecified
Environments [11.866835246140647]
実世界の環境では、堅牢な強化学習のための可能な値のセットを選択することは難しい作業である。
本稿では,環境パラメータ値の集合を自動的に決定するFasible Adversarial Robust RL(FARR)を提案する。
このFARRゲームにおいて、PSROアルゴリズムを用いて近似ナッシュ平衡を求めることにより、FARRで訓練されたエージェントは、既存のミニマックス、ドメインランダム化、後悔の目的よりも、実現可能な逆パラメータ選択に頑健であることを示す。
論文 参考訳(メタデータ) (2022-07-19T23:57:51Z) - The Geometry of Robust Value Functions [119.94715309072983]
非ロバストな値空間とロバストな値空間の両方を特徴付ける新しい視点を導入する。
我々は、ロバストな値空間が、一つの状態に一致するすべてのポリシーのロバストな値を含む集合の円錐超曲面によって決定されることを示す。
論文 参考訳(メタデータ) (2022-01-30T22:12:17Z) - Parametrized Convex Universal Approximators for Decision-Making Problems [2.3300763504208595]
一般的な意思決定問題に対して、PMA(Parametrized Max-affine)とPLSE(Parametrized log-sum-exp)ネットワークを提案する。
PMAとPLSEは、パラメタライズされた凸連続関数のための形状保存普遍近似器である。
論文 参考訳(メタデータ) (2022-01-17T09:29:08Z) - Model-Value Inconsistency as a Signal for Epistemic Uncertainty [22.492926703232015]
自己整合性(Self-Insistency)は、探索のための信号であり、(ii)分散シフトの下で安全に行動するための信号であり、(iii)モデルによる価値に基づく計画の堅牢化のための信号である。
従来の研究とは異なり、このアプローチはモデルベース強化学習アルゴリズムですでに学習されている単一のモデルと値関数のみを必要とする。
論文 参考訳(メタデータ) (2021-12-08T07:53:41Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Reinforcement Learning in Linear MDPs: Constant Regret and
Representation Selection [136.4014229319618]
線形構造を持つ有限水平マルコフ決定過程(MDPs)における後悔最小化における状態-作用値関数の表現の役割について検討する。
まず,線形報酬関数を持つ任意のMDPにおいて,一貫した後悔を実現するために,Universally spaning optimal features (UNISOFT) と呼ばれる表現に必要条件を導出する。
論文 参考訳(メタデータ) (2021-10-27T22:07:08Z) - On computing bound states of the Dirac and Schr\"odinger Equations [0.0]
パラメータを変更することで、元の方程式を満たす有界状態が常に見つけられ、正規化可能であることを示す。
非相対論的方程式の場合、これらの性質は驚くべきことではないかもしれないが、同様の相対論的方程式が成り立つことは注目すべきである。
論文 参考訳(メタデータ) (2021-07-05T20:00:20Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - The Advantage of Conditional Meta-Learning for Biased Regularization and
Fine-Tuning [50.21341246243422]
バイアスレギュラー化と微調整は、最近の2つのメタラーニングアプローチである。
本稿では,条件付き関数マッピングタスクの側情報をメタパラメータベクトルに推論する条件付きメタラーニングを提案する。
次に、実際には同等の利点をもたらす凸メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T07:32:16Z) - SMT-based Safety Verification of Parameterised Multi-Agent Systems [78.04236259129524]
パラメータ化マルチエージェントシステム(MAS)の検証について検討する。
特に、与えられた状態公式として特徴づけられる不要な状態が、所定のMASで到達可能かどうかについて検討する。
論文 参考訳(メタデータ) (2020-08-11T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。