論文の概要: Infinite-Horizon Reach-Avoid Zero-Sum Games via Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.10142v1
- Date: Fri, 18 Mar 2022 19:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:03:42.543093
- Title: Infinite-Horizon Reach-Avoid Zero-Sum Games via Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習による無限ホライゾンリーチ回避ゼロサムゲーム
- Authors: Jingqi Li, Donggun Lee, Somayeh Sojoudi, Claire J. Tomlin
- Abstract要約: 無限水平リーチアビドゼロサムゲーム問題を考えると、ゴールはリーチアビド集合と呼ばれる状態空間内の集合を見つけることである。
本稿では, 値関数が非負であると評価された状態の集合である超零レベル集合がリーチアビド集合を復元する, ベルマンバックアップを用いた新しい値関数を設計することで, この問題に対処する。
提案手法は,ニューラルネットワーク近似においても,リーチエイドセットと最適制御ポリシーを確実に学習できることを示す。
- 参考スコア(独自算出の注目度): 41.62693562316101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the infinite-horizon reach-avoid zero-sum game
problem, where the goal is to find a set in the state space, referred to as the
reach-avoid set, such that the system starting at a state therein could be
controlled to reach a given target set without violating constraints under the
worst-case disturbance. We address this problem by designing a new value
function with a contracting Bellman backup, where the super-zero level set,
i.e., the set of states where the value function is evaluated to be
non-negative, recovers the reach-avoid set. Building upon this, we prove that
the proposed method can be adapted to compute the viability kernel, or the set
of states which could be controlled to satisfy given constraints, and the
backward reachable set, or the set of states that could be driven towards a
given target set. Finally, we propose to alleviate the curse of dimensionality
issue in high-dimensional problems by extending Conservative Q-Learning, a deep
reinforcement learning technique, to learn a value function such that the
super-zero level set of the learned value function serves as a (conservative)
approximation to the reach-avoid set. Our theoretical and empirical results
suggest that the proposed method could learn reliably the reach-avoid set and
the optimal control policy even with neural network approximation.
- Abstract(参考訳): 本稿では, 無限ホリゾン到達回避ゼロサムゲーム問題を考える。この問題では, 最大到達回避集合と呼ばれる状態空間内の集合を探索することを目的としている。
本稿では, 値関数が非負であると評価された状態の集合である超零レベル集合がリーチアビド集合を復元する, ベルマンバックアップを用いた新しい値関数を設計することでこの問題に対処する。
そこで本研究では,提案手法が,与えられた制約を満たすように制御可能な状態群,後方到達可能集合,あるいは与えられた対象集合に向かって駆動可能な状態群を計算できることを示す。
最後に,深層強化学習手法である保守的q-learningを拡張し,高次元問題における次元問題の呪いを緩和し,学習値関数の超ゼロレベル集合が到達回避集合の(保存的)近似となるような値関数を学習することを提案する。
提案手法は,ニューラルネットワーク近似を用いても到達回避集合と最適制御ポリシーを確実に学習できることが示唆された。
関連論文リスト
- Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Exploiting hidden structures in non-convex games for convergence to Nash
equilibrium [62.88214569402201]
現代の機械学習アプリケーションは、非協調的なナッシュリリアとして定式化することができる。
決定論的環境と決定論的環境の両方に明確な収束保証を提供する。
論文 参考訳(メタデータ) (2023-12-27T15:21:25Z) - Convex Hulls of Reachable Sets [18.03395556436054]
到達可能な集合は制御において重要な役割を果たすが、計算が困難であることで知られる。
到達可能な集合の凸殻を、球面上の初期条件を持つ常微分方程式の解の凸殻として特徴づける。
この有限次元キャラクタリゼーションは、効率的なサンプリングベース推定アルゴリズムを解き放ち、精度良く到達可能な集合をオーバー近似する。
論文 参考訳(メタデータ) (2023-03-30T19:31:41Z) - A Quantum Optimal Control Problem with State Constrained Preserving
Coherence [68.8204255655161]
非単体脱コヒーレンスチャネルを特徴とするマルコフ脱コヒーレンスを受ける3レベル$Lambda$型原子を考える。
我々は、デコヒーレンスレベルが予め定義された境界内にある状態制約で量子最適制御問題を定式化する。
論文 参考訳(メタデータ) (2022-03-24T21:31:34Z) - Failing with Grace: Learning Neural Network Controllers that are
Boundedly Unsafe [18.34490939288318]
小型の作業空間で任意の形状のロボットを安全に操縦するために、フィードフォワードニューラルネットワーク(NN)コントローラを学習する問題を考察する。
本稿では,実際に満たすのが難しいデータに対して,そのような仮定を持ち上げるアプローチを提案する。
提案手法の有効性を検証したシミュレーション研究を提案する。
論文 参考訳(メタデータ) (2021-06-22T15:51:52Z) - Safe Learning of Uncertain Environments for Nonlinear Control-Affine
Systems [10.918870296899245]
未知の添加不確実性を受ける非線形制御アフィン系における安全な学習の問題を検討する。
我々はガウス信号として不確実性をモデル化し、状態測定を用いて平均と共分散境界を学習する。
学習と制御が同時に行われる間、我々は任意に大きな確率で状態が安全なセットにとどまることを保証することができることを示しています。
論文 参考訳(メタデータ) (2021-03-02T01:58:02Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。