論文の概要: Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
- arxiv url: http://arxiv.org/abs/2510.10214v1
- Date: Sat, 11 Oct 2025 13:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.846143
- Title: Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
- Title(参考訳): 統計的に統計的に保証された計量学習を用いた分布ロバスト制御
- Authors: Jingyi Wu, Chao Ning, Yang Shi,
- Abstract要約: 我々は、新しいエンドツーエンド有限ホライズン・ワッサーシュタイン DRC フレームワークを提案する。
これは、異方性ワッサースタインメトリクスの学習と下流制御タスクを閉ループ方式で統合する。
提案手法は,最先端手法と比較して,クローズドループ性能とロバスト性に優れることを示す。
- 参考スコア(独自算出の注目度): 5.309590159815129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
- Abstract(参考訳): Wasserstein distributionally robust control (DRC) は確率力学系の不確実性を扱うための原則的パラダイムとして最近登場した。
しかし、下流制御合成に順次組み込む前に、一様分布シフトによってデータ駆動曖昧性集合を構成する。
この曖昧性セットの構築と制御目標の分離は、本質的には構造的ミスアライメントを導入しており、これは非最適性能を持つ保守的な制御ポリシーを望まないものにしている。
この制限に対処するために,異方性ワッサースタイン計量の学習と下流制御タスクを閉ループ方式で統合し,性能クリティカルな方向に沿って曖昧性セットを体系的に調整し,より効果的な制御ポリシーを得られるような,新しいエンドツーエンドの有限ホライズンワッサースタイン DRC フレームワークを提案する。
この枠組みは二段階プログラムとして定式化され、内部レベルはDRCの下での力学系の進化を特徴付け、外側レベルは初期条件の範囲にわたって制御性能フィードバックを活用する異方性計量を洗練させる。
このプログラムを効率的に解くために,両レベル構造に合わせた確率的拡張ラグランジアンアルゴリズムを開発した。
理論的には、学習された曖昧性集合が、新しい半径調整機構の下で統計的有限サンプル保証を保持することを証明し、学習可能な計量に関してその連続性を示すことによって、両レベル定式化の正当性を確立する。
さらに, このアルゴリズムは, 非漸近収束速度における最適距離と統計的に一致している外層問題の定常点に収束することを示す。
数値制御と在庫管理の両方の実験により,提案手法は最先端の手法と比較して,クローズドループ性能とロバスト性に優れることを確認した。
関連論文リスト
- Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - FastPart: Over-Parameterized Stochastic Gradient Descent for Sparse optimisation on Measures [3.377298662011438]
本稿では,コニックパーティクルグラディエントDescent(CPGD)のスケーラビリティを高めるために,ランダム特徴と協調してグラディエントDescent戦略を利用する新しいアルゴリズムを提案する。
以下の重要な結果を示す厳密な数学的証明を提供する: $mathrm(i)$ 降下軌道に沿った解測度の総変動ノルムは有界であり、安定性を確保し、望ましくない発散を防ぐ。$mathrm(ii)$ 収束率$O(log(K)/sqrtK)$$$$$K以上の大域収束保証を確立する。
論文 参考訳(メタデータ) (2023-12-10T20:41:43Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。