論文の概要: The Geometry of Robust Value Functions
- arxiv url: http://arxiv.org/abs/2201.12929v1
- Date: Sun, 30 Jan 2022 22:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 17:10:18.115137
- Title: The Geometry of Robust Value Functions
- Title(参考訳): ロバスト値関数の幾何学
- Authors: Kaixin Wang, Navdeep Kumar, Kuangqi Zhou, Bryan Hooi, Jiashi Feng,
Shie Mannor
- Abstract要約: 非ロバストな値空間とロバストな値空間の両方を特徴付ける新しい視点を導入する。
我々は、ロバストな値空間が、一つの状態に一致するすべてのポリシーのロバストな値を含む集合の円錐超曲面によって決定されることを示す。
- 参考スコア(独自算出の注目度): 119.94715309072983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The space of value functions is a fundamental concept in reinforcement
learning. Characterizing its geometric properties may provide insights for
optimization and representation. Existing works mainly focus on the value space
for Markov Decision Processes (MDPs). In this paper, we study the geometry of
the robust value space for the more general Robust MDPs (RMDPs) setting, where
transition uncertainties are considered. Specifically, since we find it hard to
directly adapt prior approaches to RMDPs, we start with revisiting the
non-robust case, and introduce a new perspective that enables us to
characterize both the non-robust and robust value space in a similar fashion.
The key of this perspective is to decompose the value space, in a state-wise
manner, into unions of hypersurfaces. Through our analysis, we show that the
robust value space is determined by a set of conic hypersurfaces, each of which
contains the robust values of all policies that agree on one state.
Furthermore, we find that taking only extreme points in the uncertainty set is
sufficient to determine the robust value space. Finally, we discuss some other
aspects about the robust value space, including its non-convexity and policy
agreement on multiple states.
- Abstract(参考訳): 価値関数の空間は強化学習の基本的な概念である。
その幾何学的性質を特徴付けることは、最適化と表現の洞察を与えるかもしれない。
既存の作業は主にマルコフ決定プロセス(MDP)の値空間に焦点を当てている。
本稿では、遷移の不確実性を考慮したより一般的なロバストMDP(RMDP)設定のためのロバスト値空間の幾何学について検討する。
具体的には、RMDPへの事前アプローチの適応が困難であることから、非ロバストケースの再検討から始め、非ロバストな値空間とロバストな値空間の両方を同様の方法で特徴付けることができる新しい視点を導入する。
この観点の鍵は、値空間を状態的に超曲面の和集合に分解することである。
解析を通して、ロバストな値空間は円錐超曲面の集合によって決定され、それぞれが一つの状態に一致する全てのポリシーのロバストな値を含むことを示す。
さらに、不確実性集合において極点のみを取ると、ロバストな値空間を決定するのに十分である。
最後に、複数の州に対する非凸性と政策合意など、ロバストな価値空間に関する他の側面について論じる。
関連論文リスト
- CWF: Consolidating Weak Features in High-quality Mesh Simplification [50.634070540791555]
これらの要件をすべて同時に検討するスムーズな機能を提案する。
この官能基は、通常の異方性項と、セトロイド型ボロノイテッセルレーション(CVT)エネルギー項を含む。
論文 参考訳(メタデータ) (2024-04-24T05:37:17Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Neighbor-Aware Calibration of Segmentation Networks with Penalty-Based
Constraints [19.897181782914437]
本稿では,ロジット値の等式制約に基づく基本的かつ単純な解を提案し,強制制約と罰則の重みを明示的に制御する。
我々のアプローチは、広範囲のディープセグメンテーションネットワークのトレーニングに利用できる。
論文 参考訳(メタデータ) (2024-01-25T19:46:57Z) - Trust your neighbours: Penalty-based constraints for model calibration [19.437451462590108]
SVLSの制約付き最適化の観点を示し、周辺画素のソフトクラス比に暗黙の制約を課すことを示した。
本稿では,ロジット値の等式制約に基づく基本的かつ単純な解を提案し,強制制約と罰則の重みを明示的に制御する。
論文 参考訳(メタデータ) (2023-03-11T01:10:26Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Geometric Policy Iteration for Markov Decision Processes [4.746723775952672]
最近発見された有限状態作用割引マルコフ決定過程(MDP)の値関数の多面構造は、強化学習の成功を理解することに光を当てた。
ディスカウントされたMDPを解決するために,新しいアルゴリズムであるemphGeometric Policy Iterationを提案する。
論文 参考訳(メタデータ) (2022-06-12T18:15:24Z) - Spatial and Semantic Consistency Regularizations for Pedestrian
Attribute Recognition [50.932864767867365]
本稿では,各属性に対する空間的および意味的一貫性を実現するために,2つの相補的正規化からなるフレームワークを提案する。
属性の正確な位置に基づいて,本質的および識別的意味的特徴を抽出する意味的整合性正規化を提案する。
その結果,提案手法はパラメータを増大させることなく,最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2021-09-13T03:36:44Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。