論文の概要: Approximate Information States for Worst-Case Control and Learning in Uncertain Systems
- arxiv url: http://arxiv.org/abs/2301.05089v2
- Date: Sat, 6 Apr 2024 00:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 05:46:40.087758
- Title: Approximate Information States for Worst-Case Control and Learning in Uncertain Systems
- Title(参考訳): 不確実なシステムにおける最悪のケース制御と学習のための近似情報状態
- Authors: Aditya Dave, Nishanth Venkatesh, Andreas A. Malikopoulos,
- Abstract要約: システムに作用する外乱が未知の分布を持つ有界集合の値を取る非確率モデルを考える。
本稿では,情報状態の概念と近似情報状態を用いて,そのような問題における意思決定のための一般的な枠組みを提案する。
数値例を用いた制御・強化学習における本研究の応用について述べる。
- 参考スコア(独自算出の注目度): 2.7282382992043885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate discrete-time decision-making problems in uncertain systems with partially observed states. We consider a non-stochastic model, where uncontrolled disturbances acting on the system take values in bounded sets with unknown distributions. We present a general framework for decision-making in such problems by using the notion of the information state and approximate information state, and introduce conditions to identify an uncertain variable that can be used to compute an optimal strategy through a dynamic program (DP). Next, we relax these conditions and define approximate information states that can be learned from output data without knowledge of system dynamics. We use approximate information states to formulate a DP that yields a strategy with a bounded performance loss. Finally, we illustrate the application of our results in control and reinforcement learning using numerical examples.
- Abstract(参考訳): 本稿では,部分的に観察された状態を持つ不確実なシステムにおける離散時間決定問題について検討する。
システムに作用する制御不能な外乱が未知の分布を持つ有界集合の値を取る非確率モデルを考える。
本稿では、情報状態と近似情報状態の概念を用いて、そのような問題の意思決定のための一般的な枠組みを提案し、動的プログラム(DP)を通して最適な戦略を計算できる不確実な変数を特定する条件を提案する。
次に、これらの条件を緩和し、システム力学の知識を必要とせずに出力データから学習できる近似情報状態を定義する。
我々は、近似情報状態を用いて、有界な性能損失を持つ戦略をもたらすDPを定式化する。
最後に、数値的な例を用いて、制御および強化学習における結果の適用について説明する。
関連論文リスト
- Information-Theoretic State Variable Selection for Reinforcement
Learning [4.2050490361120465]
本稿では,情報理論的基準であるTransfer Entropy Redundancy Criterion (TERC)を紹介する。
TERCは、トレーニング中に状態変数からアクションに転送されるテクステントロピーがあるかどうかを判断する。
エージェントの最終性能に影響を与えない状態から変数を確実に排除する TERC に基づくアルゴリズムを定義する。
論文 参考訳(メタデータ) (2024-01-21T14:51:09Z) - Worst-Case Control and Learning Using Partial Observations Over an
Infinite Time-Horizon [2.456909016197174]
安全クリティカルなサイバー物理システムは、敵の混乱に対する堅牢な制御戦略と不確実性をモデル化する必要がある。
有限時間地平線上での最悪の割引コストを最小限に抑えるため,部分観測システムにおける近似制御と学習の枠組みを提案する。
論文 参考訳(メタデータ) (2023-03-28T21:40:06Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - On Leave-One-Out Conditional Mutual Information For Generalization [122.2734338600665]
残余条件付き相互情報(loo-CMI)の新しい尺度に基づく教師付き学習アルゴリズムのための情報理論の一般化境界を導出する。
他のCMI境界とは対照的に、我々のloo-CMI境界は容易に計算でき、古典的なout-out-out-cross-validationのような他の概念と関連して解釈できる。
ディープラーニングのシナリオにおいて予測された一般化ギャップを評価することにより,境界の質を実証的に検証する。
論文 参考訳(メタデータ) (2022-07-01T17:58:29Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Formal Verification of Unknown Dynamical Systems via Gaussian Process Regression [11.729744197698718]
安全クリティカルなシナリオにおける自律システムの活用には、不確実性の存在下での行動を検証する必要がある。
本研究では,非モデル化された力学と雑音測定を用いた離散時間力学システムの検証フレームワークを開発した。
論文 参考訳(メタデータ) (2021-12-31T05:10:05Z) - The Impact of Data on the Stability of Learning-Based Control- Extended
Version [63.97366815968177]
本稿では,Lyapunovをベースとした,認証制御性能に対するデータの影響の定量化手法を提案する。
ガウス過程を通じて未知系の力学をモデル化することにより、モデルの不確実性と安定性条件の満足度の間の相互関係を決定できる。
論文 参考訳(メタデータ) (2020-11-20T19:10:01Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Approximate information state for approximate planning and reinforcement
learning in partially observed systems [0.7646713951724009]
歴史の関数(AIS)が情報状態の性質をほぼ満足すると、対応する近似動的プログラムが存在することを示す。
文献における状態,観察,行動空間のいくつかの近似がAISの例であることを示す。
AISの健全な特徴は、データから学習できることである。
論文 参考訳(メタデータ) (2020-10-17T18:30:30Z) - Learning Robust Decision Policies from Observational Data [21.05564340986074]
高いコストで成果のリスクを減らすような堅牢な政策を学ぶことは、興味深いことです。
本研究では,特定のレベルでのコスト分布のテールを削減するための政策学習手法を開発した。
論文 参考訳(メタデータ) (2020-06-03T16:02:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。