論文の概要: Model-free Learning of Regions of Attraction via Recurrent Sets
- arxiv url: http://arxiv.org/abs/2204.10372v2
- Date: Thu, 14 Sep 2023 03:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:49:19.643368
- Title: Model-free Learning of Regions of Attraction via Recurrent Sets
- Title(参考訳): リカレント・セットによるアトラクション領域のモデルフリー学習
- Authors: Yue Shen, Maxim Bichuch, Enrique Mallada
- Abstract要約: 再帰性として知られる包摂性の概念をより緩和的に満たす集合を学習することを提案する。
穏やかな仮定の下では、安定平衡を含む $tau$-recurrent set がその ROA の部分集合でなければならないことを示す。
次に、この特性を利用して、再帰の反例を用いてROAの内部近似を計算するアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 5.032993162348713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of learning an inner approximation of the region of
attraction (ROA) of an asymptotically stable equilibrium point without an
explicit model of the dynamics. Rather than leveraging approximate models with
bounded uncertainty to find a (robust) invariant set contained in the ROA, we
propose to learn sets that satisfy a more relaxed notion of containment known
as recurrence. We define a set to be $\tau$-recurrent (resp. $k$-recurrent) if
every trajectory that starts within the set, returns to it after at most $\tau$
seconds (resp. $k$ steps). We show that under mild assumptions a
$\tau$-recurrent set containing a stable equilibrium must be a subset of its
ROA. We then leverage this property to develop algorithms that compute inner
approximations of the ROA using counter-examples of recurrence that are
obtained by sampling finite-length trajectories. Our algorithms process samples
sequentially, which allow them to continue being executed even after an initial
offline training stage. We further provide an upper bound on the number of
counter-examples used by the algorithm, and almost sure convergence guarantees.
- Abstract(参考訳): 本研究では,漸近的に安定な平衡点のアトラクション領域(ROA)の内部近似を,ダイナミックスの明示的なモデルなしで学習する問題を考察する。
ROAに含まれる(ロバストな)不変集合を見つけるために境界不確実性を持つ近似モデルを活用するのではなく、より緩和された再帰の概念を満たす集合を学習することを提案する。
セットが$\tau$-recurrent(resp.$k$-recurrent)であると定義するのは、セット内で始まるすべてのトラジェクトリが、少なくとも$\tau$ seconds(resp.$k$ steps)の後に返される場合である。
穏やかな仮定の下では、安定平衡を含む$\tau$-recurrent 集合はその roa の部分集合でなければならない。
次に、この特性を利用して、有限長軌道のサンプリングによって得られる反例を用いてROAの内部近似を計算するアルゴリズムを開発する。
我々のアルゴリズムは、サンプルを逐次処理し、初期オフライントレーニング段階以降も実行し続けることができる。
さらにアルゴリズムが使用する反例の数の上界を提供し、ほぼ確実に収束する保証を提供する。
関連論文リスト
- Approximate Thompson Sampling for Learning Linear Quadratic Regulators with $O(\sqrt{T})$ Regret [10.541541376305243]
本稿では,線形二次レギュレータ(LQR)を改良したベイズ的残差値$O(sqrtT)$で学習する近似トンプソンサンプリングアルゴリズムを提案する。
励振信号は、プレコンディショナーの最小固有値を時間とともに増加させ、近似した後方サンプリングプロセスを加速させることを示す。
論文 参考訳(メタデータ) (2024-05-29T03:24:56Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Improved Sample Complexity Bounds for Distributionally Robust
Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。
本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。
提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文 参考訳(メタデータ) (2023-03-05T21:47:08Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Exploration in Linear Bandits with Rich Action Sets and its Implications
for Inference [23.364534479492715]
期待行列の最小固有値は、アルゴリズムの累積後悔が$sqrtn)$であるときに、$Omega(sqrtn)として増加することを示す。
本研究は, 線形帯域におけるEmphmodel selectionとEmphclusteringの2つの実践シナリオに適用する。
論文 参考訳(メタデータ) (2022-07-23T20:25:07Z) - A gradient estimator via L1-randomization for online zero-order
optimization with two point feedback [93.57603470949266]
2つの関数評価とランダム化に基づく新しい勾配推定器を提案する。
ゼロ次オラクルの雑音に対する仮定は,ノイズのキャンセルと逆方向雑音の2種類について考察する。
我々は、問題の全てのパラメータに適応する、いつでも完全にデータ駆動のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-05-27T11:23:57Z) - Semi-Random Sparse Recovery in Nearly-Linear Time [37.61139884826181]
生成モデル変更に対する高速スパース回収アルゴリズムの脆性について検討する。
提案手法は,半ランダム生成モデルに基づく証明可能な保証付き高速反復法とは異なる。
半ランダムモデルに対して確実に堅牢なスパースリカバリの幾何学に適合した新しい反復法を設計する。
論文 参考訳(メタデータ) (2022-03-08T10:56:46Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Frequentist Regret Bounds for Randomized Least-Squares Value Iteration [94.47472987987805]
有限水平強化学習(RL)における探索・探索ジレンマの検討
本稿では,ランダム化最小二乗値 (RLSVI) の楽観的な変種を紹介する。
マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$widetilde O(d2 H2 sqrtT)$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ が総数であることを示す。
論文 参考訳(メタデータ) (2019-11-01T19:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。