論文の概要: Worst-Case Control and Learning Using Partial Observations Over an
Infinite Time-Horizon
- arxiv url: http://arxiv.org/abs/2303.16321v2
- Date: Fri, 31 Mar 2023 21:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 20:26:58.248508
- Title: Worst-Case Control and Learning Using Partial Observations Over an
Infinite Time-Horizon
- Title(参考訳): 無限時間ホリゾン上の部分観測を用いた最悪ケース制御と学習
- Authors: Aditya Dave, Ioannis Faros, Nishanth Venkatesh, and Andreas A.
Malikopoulos
- Abstract要約: 安全クリティカルなサイバー物理システムは、敵の混乱に対する堅牢な制御戦略と不確実性をモデル化する必要がある。
有限時間地平線上での最悪の割引コストを最小限に抑えるため,部分観測システムにおける近似制御と学習の枠組みを提案する。
- 参考スコア(独自算出の注目度): 2.456909016197174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-critical cyber-physical systems require control strategies whose
worst-case performance is robust against adversarial disturbances and modeling
uncertainties. In this paper, we present a framework for approximate control
and learning in partially observed systems to minimize the worst-case
discounted cost over an infinite time horizon. We model disturbances to the
system as finite-valued uncertain variables with unknown probability
distributions. For problems with known system dynamics, we construct a dynamic
programming (DP) decomposition to compute the optimal control strategy. Our
first contribution is to define information states that improve the
computational tractability of this DP without loss of optimality. Then, we
describe a simplification for a class of problems where the incurred cost is
observable at each time instance. Our second contribution is defining an
approximate information state that can be constructed or learned directly from
observed data for problems with observable costs. We derive bounds on the
performance loss of the resulting approximate control strategy and illustrate
the effectiveness of our approach in partially observed decision-making
problems with a numerical example.
- Abstract(参考訳): 安全クリティカルなサイバー物理システムは、敵の妨害や不確実性のモデリングに対して最悪のパフォーマンスが堅牢な制御戦略を必要とする。
本稿では,有限時間地平線上での最悪の割引コストを最小限に抑えるために,部分観測システムにおける近似制御と学習の枠組みを提案する。
確率分布が未知な有限値不確実変数として系に障害をモデル化する。
既知のシステムダイナミクスの問題に対して,最適制御戦略を計算するために動的プログラミング(dp)分解を構築する。
最初のコントリビューションは、最適性を失うことなくDPの計算的トラクタビリティを向上させる情報状態を定義することです。
次に、各インスタンスで発生したコストが観測可能な問題のクラスに対する単純化について述べる。
第2の貢献は,可観測コストの問題に対して,観測データから直接構築あるいは学習可能な近似情報状態を定義することです。
我々は,結果の近似制御戦略の性能損失の限界を導出し,数値例を用いて部分的観察した意思決定問題において,提案手法の有効性を示す。
関連論文リスト
- OCMDP: Observation-Constrained Markov Decision Process [9.13947446878397]
我々は、コスト感受性環境における観察と制御戦略を同時に学習する課題に取り組む。
我々は,ポリシーのセンシングと制御を分離する反復的,モデルなしの深層強化学習アルゴリズムを開発した。
本研究は,HeartPoleを用いたシミュレートされた診断課題と現実的な医療環境に対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-11-11T16:04:49Z) - Non-Gaussian Uncertainty Minimization Based Control of Stochastic
Nonlinear Robotic Systems [9.088960941718]
我々は、不確実性や乱れによる名目状態軌跡からのシステムの状態のずれを最小限に抑える状態フィードバックコントローラを設計する。
我々はモーメントと特徴関数を用いて、ロボットシステムの非線形運動モデル全体にわたって不確実性を伝播する。
論文 参考訳(メタデータ) (2023-03-02T23:31:32Z) - Approximate Information States for Worst-Case Control and Learning in Uncertain Systems [2.7282382992043885]
システムに作用する外乱が未知の分布を持つ有界集合の値を取る非確率モデルを考える。
本稿では,情報状態の概念と近似情報状態を用いて,そのような問題における意思決定のための一般的な枠組みを提案する。
数値例を用いた制御・強化学習における本研究の応用について述べる。
論文 参考訳(メタデータ) (2023-01-12T15:36:36Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。