論文の概要: Finding Safe Zones of policies Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2202.11593v2
- Date: Mon, 9 Oct 2023 17:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 17:14:04.114995
- Title: Finding Safe Zones of policies Markov Decision Processes
- Title(参考訳): ポリシーの安全なゾーンを見つける マルコフ決定プロセス
- Authors: Lee Cohen, Yishay Mansour, Michal Moshkovitz
- Abstract要約: 決定プロセスのポリシーが与えられた場合、私たちはSafeZoneを状態のサブセットとして定義します。
SafeZoneの品質は状態の数とエスケープ確率、すなわちランダムな軌道がサブセットを離れる確率によってパラメータ化される。
- 参考スコア(独自算出の注目度): 53.93816835129937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a policy of a Markov Decision Process, we define a SafeZone as a subset
of states, such that most of the policy's trajectories are confined to this
subset. The quality of a SafeZone is parameterized by the number of states and
the escape probability, i.e., the probability that a random trajectory will
leave the subset. SafeZones are especially interesting when they have a small
number of states and low escape probability. We study the complexity of finding
optimal SafeZones, and show that in general, the problem is computationally
hard. Our main result is a bi-criteria approximation learning algorithm with a
factor of almost $2$ approximation for both the escape probability and SafeZone
size, using a polynomial size sample complexity.
- Abstract(参考訳): マルコフ決定過程のポリシーが与えられた場合、私たちはSafeZoneを状態のサブセットとして定義し、政策の軌道のほとんどがこのサブセットに限定される。
SafeZoneの品質は状態の数とエスケープ確率、すなわちランダムな軌道がサブセットを離れる確率によってパラメータ化される。
SafeZonesは、少数の状態と低いエスケープ確率を持つ場合に特に興味深い。
最適なSafeZoneの発見の複雑さについて検討し、一般に計算が困難であることを示す。
我々の主な成果は、多項式サイズサンプルの複雑さを用いて、脱走確率とSafeZoneサイズの両方に約2ドルの近似係数を持つ双基準近似学習アルゴリズムである。
関連論文リスト
- Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Riemannian stochastic optimization methods avoid strict saddle points [68.80251170757647]
研究中のポリシーは、確率 1 の厳密なサドル点/部分多様体を避けていることを示す。
この結果は、アルゴリズムの極限状態が局所最小値にしかならないことを示すため、重要な正当性チェックを提供する。
論文 参考訳(メタデータ) (2023-11-04T11:12:24Z) - Near-Optimal Multi-Agent Learning for Safe Coverage Control [76.99020416197631]
マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず、安全を確実に保証しながら、有限時間で最適範囲に近づいた結果を挙げる。
論文 参考訳(メタデータ) (2022-10-12T16:33:34Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse
Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances [27.122181278234617]
両腕のガウスバンドにおける固定予算ベストアーム識別問題について検討する。
本稿では,アームドローの目標配置確率を推定し,ランダム化サンプリング(RS)を用いたサンプリングルールを含む戦略を提案する。
提案手法は,サンプルサイズが無限大になり,両腕間のギャップがゼロとなる場合に,不可視的に最適であることを示す。
論文 参考訳(メタデータ) (2022-01-12T13:38:33Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Expanding boundaries of Gap Safe screening [0.0]
アルゴリズムの性能を高める強力な戦略は、safe screeningとして知られている。
双対コスト関数に対するグローバルな強結合性仮定を緩和することにより,既存のギャップセーフスクリーニングフレームワークを拡張する。
提案された一般的なフレームワークは、ロジスティック関数、beta = 1.5、kullback-leibler divergencesといった特別なケースで例示されている。
論文 参考訳(メタデータ) (2021-02-22T09:23:31Z) - Learning to be safe, in finite time [4.189643331553922]
本稿では,未知の環境での安全な行動の学習を,確率が保証されても,無拘束の探索試験を必要とせずに実現できるという考えを提唱する。
我々は、標準的マルチアームバンディット問題に焦点をあて、安全学習における探索保存トレードオフの本質的な研究を模索する。
論文 参考訳(メタデータ) (2020-10-01T14:03:34Z) - Enforcing Almost-Sure Reachability in POMDPs [10.883864654718103]
部分観測可能なマルコフ決定プロセス(POMDP)は、限られた情報の下での逐次決定のためのよく知られたモデルである。
我々は、悪い状態にたどり着くことなく、ほぼ確実に目標状態に達するような、EXPTIMEの難題を考察する。
SATに基づく新しい反復手法と,決定図に基づく代替手法の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-30T19:59:46Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。