論文の概要: Robust Control with Gradient Uncertainty
- arxiv url: http://arxiv.org/abs/2507.15082v1
- Date: Sun, 20 Jul 2025 18:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.186544
- Title: Robust Control with Gradient Uncertainty
- Title(参考訳): 勾配不確かさによるロバスト制御
- Authors: Qian Qi,
- Abstract要約: 本稿では,値関数の勾配の不確かさに明示的に対処する,ロバスト制御理論への新たな拡張を導入する。
この研究は、強化学習や計算ファイナンスを含む関数近似が一般的である分野において重要な意味を持つ。
- 参考スコア(独自算出の注目度): 2.1756081703276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel extension to robust control theory that explicitly addresses uncertainty in the value function's gradient, a form of uncertainty endemic to applications like reinforcement learning where value functions are approximated. We formulate a zero-sum dynamic game where an adversary perturbs both system dynamics and the value function gradient, leading to a new, highly nonlinear partial differential equation: the Hamilton-Jacobi-Bellman-Isaacs Equation with Gradient Uncertainty (GU-HJBI). We establish its well-posedness by proving a comparison principle for its viscosity solutions under a uniform ellipticity condition. Our analysis of the linear-quadratic (LQ) case yields a key insight: we prove that the classical quadratic value function assumption fails for any non-zero gradient uncertainty, fundamentally altering the problem structure. A formal perturbation analysis characterizes the non-polynomial correction to the value function and the resulting nonlinearity of the optimal control law, which we validate with numerical studies. Finally, we bridge theory to practice by proposing a novel Gradient-Uncertainty-Robust Actor-Critic (GURAC) algorithm, accompanied by an empirical study demonstrating its effectiveness in stabilizing training. This work provides a new direction for robust control, holding significant implications for fields where function approximation is common, including reinforcement learning and computational finance.
- Abstract(参考訳): 本稿では,値関数の勾配の不確実性,すなわち値関数が近似された強化学習のような応用に対する不確実性に明示的に対処する,ロバスト制御理論への新たな拡張を導入する。
システムダイナミクスと値関数勾配の両方を逆摂動するゼロサムダイナミックゲームを定式化し、ハミルトン-ヤコビ-ベルマン-イザック方程式(英語版)(GU-HJBI)という新しい非線形偏微分方程式を導いた。
均一な楕円性条件下での粘性解の比較原理を証明し、その適合性を確立する。
古典的二次値関数の仮定は、非ゼロ勾配の不確実性に対して失敗し、問題構造を根本的に変えることを証明する。
正規摂動解析では、非多項式補正を値関数と最適制御則の非線形性に特徴付け、数値的研究で検証する。
最後に,GURAC(Gradient-Uncertainty-Robust Actor-Critic)アルゴリズムの提案と,トレーニングの安定化効果の実証実験を行った。
この研究は、強化学習や計算ファイナンスを含む関数近似が一般的である分野に重要な意味を持つ、堅牢な制御のための新しい方向を提供する。
関連論文リスト
- The Vanishing Gradient Problem for Stiff Neural Differential Equations [3.941173292703699]
強靭なシステムでは、高速脱着モードを制御するパラメータに対する感度が訓練中に著しく小さくなることが観察されている。
ここでは, この勾配の消失現象は, 特定の手法の人工物ではなく, A-stable および L-stable の厳密な数値積分スキームの普遍的な特徴であることを示す。
論文 参考訳(メタデータ) (2025-08-02T23:44:14Z) - An optimization-based equilibrium measure describes non-equilibrium steady state dynamics: application to edge of chaos [2.5690340428649328]
神経力学を理解することは、機械学習、非線形物理学、神経科学において中心的なトピックである。
力学は非線形であり、特に非勾配、すなわち駆動力はポテンシャルの勾配として書けない。
論文 参考訳(メタデータ) (2024-01-18T14:25:32Z) - Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding [21.38845517949153]
本稿では,非線形系の最適制御のためのスペクトルダイナミクス埋め込み制御(SDEC)を提案する。
これはシステムの非線形力学によって誘導される無限次元の特徴表現を明らかにし、状態-作用値関数の線形表現を可能にする。
論文 参考訳(メタデータ) (2023-04-08T04:23:46Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders [16.193776814471768]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - Asymptotic consistency of the WSINDy algorithm in the limit of continuum
data [0.0]
非線形力学アルゴリズム(WSINDy)の弱形式スパース同定の整合性について検討する。
弱形式方程式学習の雑音に対する観測されたロバスト性について数学的に厳密な説明を行う。
論文 参考訳(メタデータ) (2022-11-29T07:49:34Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Stochastic Langevin Differential Inclusions with Applications to Machine Learning [5.274477003588407]
ランゲヴィン型微分包含物の流動と性質に関する基礎的な結果を示す。
特に、解の存在が強く、また自由エネルギー関数の正準最小化が示される。
論文 参考訳(メタデータ) (2022-06-23T08:29:17Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Contraction Theory for Nonlinear Stability Analysis and Learning-based Control: A Tutorial Overview [17.05002635077646]
収縮理論 (contraction theory) は、非自明(時間変化)非線形系の微分力学を研究するための解析ツールである。
これは、比較補題と共に用いられる指数的安定性の優れた性質を利用する。
これにより、ニューラルネットワークベースの制御と推定スキームに対して、待望の安全性と安定性が保証される。
論文 参考訳(メタデータ) (2021-10-01T23:03:21Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - On dissipative symplectic integration with applications to
gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。
我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文 参考訳(メタデータ) (2020-04-15T00:36:49Z) - Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文 参考訳(メタデータ) (2019-12-26T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。