Fugu-MT 論文翻訳(概要): Learning Control Policies for Region Stabilization in Stochastic Systems

論文の概要: Learning Control Policies for Region Stabilization in Stochastic Systems

arxiv url: http://arxiv.org/abs/2210.05304v1
Date: Tue, 11 Oct 2022 09:55:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 14:53:16.092931
Title: Learning Control Policies for Region Stabilization in Stochastic Systems
Title（参考訳）: 確率システムにおける領域安定化のための学習制御政策
Authors: Matin Ansaripour, Mathias Lechner, {\DJ}or{\dj}e \v{Z}ikeli\'c, Krishnendu Chatterjee, Thomas A. Henzinger
Abstract要約: 本稿では,確率-$1$の安定性を正式に証明する sRSM とともに制御ポリシを学習する学習手順を提案する。実験により,本研究の学習手順が,実際に確実に安定化された政策を学習できることが示唆された。
参考スコア（独自算出の注目度）: 18.349820472823055
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We consider the problem of learning control policies in stochastic systems which guarantee that the system stabilizes within some specified stabilization region with probability $1$. Our approach is based on the novel notion of stabilizing ranking supermartingales (sRSMs) that we introduce in this work. Our sRSMs overcome the limitation of methods proposed in previous works whose applicability is restricted to systems in which the stabilizing region cannot be left once entered under any control policy. We present a learning procedure that learns a control policy together with an sRSM that formally certifies probability-$1$ stability, both learned as neural networks. Our experimental evaluation shows that our learning procedure can successfully learn provably stabilizing policies in practice.
Abstract（参考訳）: 確率的システムにおいて,特定の安定化領域内を確率1ドルで安定化することを保証する制御ポリシーの学習問題を考察する。このアプローチは,本研究で紹介するsrsm(stabilizing ranking supermartingales)という新しい概念に基づいている。我々のsRSMは、制御ポリシに一度入力した時点で安定化領域を残せないシステムに限定して適用可能な、従来の研究で提案された手法の制限を克服する。本稿では,ニューラルネットワークとして学習した確率-$1$の安定性を正式に証明する sRSM とともに制御ポリシを学習する学習手順を提案する。実験により,我々の学習手順は,実際の安定政策を確実に学習できることを示した。

関連論文リスト

Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文参考訳（メタデータ） (2025-06-03T11:17:07Z)
Globally Stable Neural Imitation Policies [3.8772936189143445]
本稿では,形式的安定性を保証するポリシを生成する模倣学習システムであるSNDSを紹介する。リアプノフの定理に基づく安定性の表現を容易にするニューラルポリシーアーキテクチャをデプロイする。訓練されたポリシーを現実世界のマニピュレータアームに展開することに成功しました。
論文参考訳（メタデータ） (2024-03-07T00:20:11Z)
Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-19T05:55:02Z)
Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文参考訳（メタデータ） (2022-06-17T02:47:53Z)
KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文参考訳（メタデータ） (2022-06-03T17:27:04Z)
Learning Stabilizing Policies in Stochastic Control Systems [20.045860624444494]
単一学習アルゴリズムを用いて,マーチンゲール証明書と協調してポリシーを学習し,その安定性を証明した。本研究は, 共同最適化における事前学習の方法として, 修復と検証を成功させるためには, 何らかの形態の事前学習が必要であることを示唆する。
論文参考訳（メタデータ） (2022-05-24T11:38:22Z)
Stability Verification in Stochastic Control Systems via Neural Network Supermartingales [17.558766911646263]
2つの新しい側面を持つ一般非線形制御問題に対するアプローチを提案する。我々は、A.s.asymptotic stabilityの証明にランキング・スーパーガレス(RSM)を使用し、ニューラルネットワークの学習方法を提案する。
論文参考訳（メタデータ） (2021-12-17T13:05:14Z)
Stabilizing Dynamical Systems via Policy Gradient Methods [32.88312419270879]
完全に観察された力学系を安定化するためのモデルフリーなアルゴリズムを提案する。本研究では,線形システムの安定化制御を効率よく行うことを証明する。我々は,共通制御ベンチマークにおけるアプローチの有効性を実証的に評価した。
論文参考訳（メタデータ） (2021-10-13T00:58:57Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T14:53:55Z)
Learning Stabilizing Controllers for Unstable Linear Quadratic Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文参考訳（メタデータ） (2020-06-19T08:58:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。