論文の概要: Statistical Learning of Distributionally Robust Stochastic Control in Continuous State Spaces
- arxiv url: http://arxiv.org/abs/2406.11281v1
- Date: Mon, 17 Jun 2024 07:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 17:54:42.280837
- Title: Statistical Learning of Distributionally Robust Stochastic Control in Continuous State Spaces
- Title(参考訳): 連続状態空間における分布ロバスト確率制御の統計的学習
- Authors: Shengbo Wang, Nian Si, Jose Blanchet, Zhengyuan Zhou,
- Abstract要約: X_t+1 = f(X_t, A_t, W_t)$。
ここでは、$X$、$A$、$W$はそれぞれ状態、アクション、ランダムノイズプロセスを表し、$f$は状態遷移を記述する既知の関数を表す。
本稿では,所定のあいまいさ集合内の雑音分布に対して,おそらく逆方向の摂動を許容する分布的に頑健な制御パラダイムを提案する。
- 参考スコア(独自算出の注目度): 17.96094201655567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the control of stochastic systems with potentially continuous state and action spaces, characterized by the state dynamics $X_{t+1} = f(X_t, A_t, W_t)$. Here, $X$, $A$, and $W$ represent the state, action, and exogenous random noise processes, respectively, with $f$ denoting a known function that describes state transitions. Traditionally, the noise process $\{W_t, t \geq 0\}$ is assumed to be independent and identically distributed, with a distribution that is either fully known or can be consistently estimated. However, the occurrence of distributional shifts, typical in engineering settings, necessitates the consideration of the robustness of the policy. This paper introduces a distributionally robust stochastic control paradigm that accommodates possibly adaptive adversarial perturbation to the noise distribution within a prescribed ambiguity set. We examine two adversary models: current-action-aware and current-action-unaware, leading to different dynamic programming equations. Furthermore, we characterize the optimal finite sample minimax rates for achieving uniform learning of the robust value function across continuum states under both adversary types, considering ambiguity sets defined by $f_k$-divergence and Wasserstein distance. Finally, we demonstrate the applicability of our framework across various real-world settings.
- Abstract(参考訳): X_{t+1} = f(X_t, A_t, W_t)$ である。
ここでは、$X$、$A$、$W$はそれぞれ状態、アクション、および外因性ランダムノイズプロセスを表し、$f$は状態遷移を記述する既知の関数を表す。
伝統的に、ノイズプロセス $\{W_t, t \geq 0\}$ は独立で同一の分布であると仮定される。
しかし、工学的な設定で典型的な分布シフトの発生は、ポリシーの堅牢性を考慮する必要がある。
本稿では,所定のあいまいさ集合内の雑音分布に対する適応的逆方向の摂動に対応する,分布的に頑健な確率的制御パラダイムを提案する。
本稿では,2つの対向モデルについて検討する。
さらに、f_k$-divergence と Wasserstein 距離で定義される曖昧性集合を考慮し、両逆型の下での連続状態におけるロバスト値関数の均一学習を実現するための最適な有限サンプル最小値速度を特徴付ける。
最後に、実世界の様々な設定にまたがってフレームワークの適用性を示す。
関連論文リスト
- Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Robust Control for Dynamical Systems With Non-Gaussian Noise via Formal
Abstractions [59.605246463200736]
雑音分布の明示的な表現に依存しない新しい制御器合成法を提案する。
まず、連続制御系を有限状態モデルに抽象化し、離散状態間の確率的遷移によってノイズを捕捉する。
我々は最先端の検証技術を用いてマルコフ決定プロセスの間隔を保証し、これらの保証が元の制御システムに受け継がれるコントローラを演算する。
論文 参考訳(メタデータ) (2023-01-04T10:40:30Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Dynamic mean field programming [1.2183405753834562]
動的平均場理論は、有限状態と大きな状態空間極限における行動強化学習のために開発された。
ある仮定では、状態-作用値は状態空間の極限における状態-作用対間で統計的に独立である。
結果は、値反復とポリシー評価の両方に対して、有限かつ割引された無限地平線設定を保持する。
論文 参考訳(メタデータ) (2022-06-10T15:57:23Z) - Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian
Noise [59.47042225257565]
雑音分布の明示的な表現に依存しない新しい計画法を提案する。
まず、連続系を離散状態モデルに抽象化し、状態間の確率的遷移によってノイズを捕捉する。
いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。
論文 参考訳(メタデータ) (2021-10-25T06:18:55Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - $(f,\Gamma)$-Divergences: Interpolating between $f$-Divergences and
Integral Probability Metrics [6.221019624345409]
我々は、$f$-divergences と積分確率メトリクス(IPMs)の両方を仮定する情報理論の分岐を構築するためのフレームワークを開発する。
2段階の質量再分配/物質輸送プロセスとして表現できることが示される。
統計的学習を例として,重み付き,絶対連続的なサンプル分布に対するGAN(generative adversarial network)の訓練において,その優位性を示す。
論文 参考訳(メタデータ) (2020-11-11T18:17:09Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。