論文の概要: Equipping Black-Box Policies with Model-Based Advice for Stable
Nonlinear Control
- arxiv url: http://arxiv.org/abs/2206.01341v1
- Date: Thu, 2 Jun 2022 23:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 04:19:21.395983
- Title: Equipping Black-Box Policies with Model-Based Advice for Stable
Nonlinear Control
- Title(参考訳): 安定非線形制御のためのモデルベースアドバイザを用いたブラックボックスポリシの取得
- Authors: Tongxin Li, Ruixiao Yang, Guannan Qu, Yiheng Lin, Steven Low and Adam
Wierman
- Abstract要約: 単一軌道上の非線形制御に対するモデルベースアドバイスを用いたブラックボックス制御ポリシの装備問題について検討する。
まず、ブラックボックスポリシーと線形モデルベースのポリシーの単純な凸の組み合わせが不安定をもたらすという一般的な否定的な結果を示す。
次に、適応的な$lambda$-confidentポリシーを提案し、その係数$lambda$はブラックボックスポリシーの信頼性を示し、その安定性を証明します。
- 参考スコア(独自算出の注目度): 12.171924309915772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine-learned black-box policies are ubiquitous for nonlinear control
problems. Meanwhile, crude model information is often available for these
problems from, e.g., linear approximations of nonlinear dynamics. We study the
problem of equipping a black-box control policy with model-based advice for
nonlinear control on a single trajectory. We first show a general negative
result that a naive convex combination of a black-box policy and a linear
model-based policy can lead to instability, even if the two policies are both
stabilizing. We then propose an adaptive $\lambda$-confident policy, with a
coefficient $\lambda$ indicating the confidence in a black-box policy, and
prove its stability. With bounded nonlinearity, in addition, we show that the
adaptive $\lambda$-confident policy achieves a bounded competitive ratio when a
black-box policy is near-optimal. Finally, we propose an online learning
approach to implement the adaptive $\lambda$-confident policy and verify its
efficacy in case studies about the CartPole problem and a real-world electric
vehicle (EV) charging problem with data bias due to COVID-19.
- Abstract(参考訳): 機械学習型ブラックボックスポリシーは非線形制御問題に対してユビキタスである。
一方、これらの問題に対して、例えば非線形力学の線形近似から粗いモデル情報が得られることが多い。
単一軌道上の非線形制御に対するモデルベースアドバイスを用いたブラックボックス制御ポリシの装備問題について検討する。
まず, ブラックボックス政策と線形モデルに基づく政策のナイーブ凸結合は, 両者が安定していても不安定になる可能性を示す。
次に,ブラックボックスポリシーの信頼度を示す係数 $\lambda$ を用いて適応的な$\lambda$-confidentポリシーを提案し,その安定性を証明する。
さらに、有界非線形性により、ブラックボックスポリシーが最適に近い場合に、適応的$\lambda$-confidentポリシーが有界競合比を達成することを示す。
最後に,適応型$\lambda$-confidentポリシーを実装し,covid-19によるデータバイアスを伴う現実の電気自動車(ev)充電問題とカートポール問題に関するケーススタディでの有効性を検証するオンライン学習手法を提案する。
関連論文リスト
- Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear
Systems via Sums-of-Squares Optimization [28.627377507894003]
本稿では,非線形システムの制御観測のためのノイズフィードバック,低次出力-制御-パーセプションポリシを提案する。
画像からのこれらのシステムが確実に安定できない場合、我々のアプローチは安定性の保証を提供する。
論文 参考訳(メタデータ) (2023-04-24T19:34:09Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - Stability Verification of Neural Network Controllers using Mixed-Integer
Programming [5.811502603310248]
本稿では,表現可能な制御ポリシの安定性検証のためのフレームワークを提案する。
提案するフレームワークは、幅広い候補ポリシーに対応するのに十分な一般性を持っている。
提案フレームワークをベースとしたオープンソースツールボックスをPythonで提案する。
論文 参考訳(メタデータ) (2022-06-27T15:34:39Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - The Power of Linear Controllers in LQR Control [39.76359052907755]
我々は3つの異なる統制政策の間の後悔の政策を計算します。
最適オフライン線形ポリシーのコストは、最適オンラインポリシーのコストに収束することを示す。
ノイズの所在に焦点をあてるが, 適応的相手が雑音を選択すると, 満足できる政策に新たな下限が生じることが示唆される。
論文 参考訳(メタデータ) (2020-02-07T00:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。