論文の概要: A Test-Function Approach to Incremental Stability
- arxiv url: http://arxiv.org/abs/2507.00695v1
- Date: Tue, 01 Jul 2025 11:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.613672
- Title: A Test-Function Approach to Incremental Stability
- Title(参考訳): インクリメンタル安定性に対するテストファンクションアプローチ
- Authors: Daniel Pfrommer, Max Simchowitz, Ali Jadbabaie,
- Abstract要約: 値関数の正則性とその漸進安定性への関連性は、制御理論における安定性の証明に対する従来のリャプノフのアプローチとは異なる方法で理解することができる。
- 参考スコア(独自算出の注目度): 33.44344966171865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel framework for analyzing Incremental-Input-to-State Stability ($\delta$ISS) based on the idea of using rewards as "test functions." Whereas control theory traditionally deals with Lyapunov functions that satisfy a time-decrease condition, reinforcement learning (RL) value functions are constructed by exponentially decaying a Lipschitz reward function that may be non-smooth and unbounded on both sides. Thus, these RL-style value functions cannot be directly understood as Lyapunov certificates. We develop a new equivalence between a variant of incremental input-to-state stability of a closed-loop system under given a policy, and the regularity of RL-style value functions under adversarial selection of a H\"older-continuous reward function. This result highlights that the regularity of value functions, and their connection to incremental stability, can be understood in a way that is distinct from the traditional Lyapunov-based approach to certifying stability in control theory.
- Abstract(参考訳): 本稿では、報酬を「テスト機能」として利用するという考え方に基づいて、インクリメンタル・インプット・トゥ・ステート安定性(\delta$ISS)を解析するための新しい枠組みを提案する。
制御理論は伝統的に時間分解条件を満たすリャプノフ関数を扱うが、強化学習(RL)値関数はリプシッツの報酬関数を指数関数的に崩壊させることで構成される。
したがって、これらの RL スタイルの値関数は、直接 Lyapunov 証明書として理解することはできない。
我々は, 閉ループシステムの漸進的入力-状態安定性の変種と, H\\\older-Continuous reward関数の対角選択の下でのRL型値関数の正則性の間に新しい等価性を開発する。
この結果は、値関数の正則性とその漸進安定性への接続が、制御理論における安定性の証明に対する従来のリャプノフのアプローチとは異なる方法で理解できることを強調している。
関連論文リスト
- Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions [15.306107403623075]
最適制御・強化学習(RL)に基づく制御ポリシ下での閉ループシステムの安定性の証明問題について検討する。
古典的なリャプノフ法は、リャプノフ関数の厳格な段階的減少を必要とするが、そのような証明は学習された制御ポリシーのために構築することは困難である。
ニューラルネットワーク残差項でRL値関数を増大させることにより、一般化されたリアプノフ関数を学習するためのアプローチを定式化する。
論文 参考訳(メタデータ) (2025-05-16T07:36:40Z) - On the stability of Lipschitz continuous control problems and its application to reinforcement learning [1.534667887016089]
モデルフリー強化学習におけるハミルトン-ヤコビ-ベルマン方程式(HJB)の重要な安定性特性について考察する。
リプシッツ連続最適制御問題と粘性解フレームワークにおける古典的最適制御問題とのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-20T08:21:25Z) - Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning [20.07425661382103]
Q$-Aided Conditional Supervised Learningは、RCSLの安定性と$Q$-functionの縫合能力を組み合わせる。
QCSは、トラジェクトリリターンに基づいたRCSLの損失関数に$Q$-aidを適応的に統合する。
論文 参考訳(メタデータ) (2024-02-03T04:17:09Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Stable Reinforcement Learning with Unbounded State Space [27.053432445897016]
待ち行列ネットワークにおけるスケジューリングの古典的問題に動機づけられた非有界状態空間による強化学習の問題を考える。
有限、有界、あるいはコンパクトな状態空間のために設計されたエラー計量と同様に伝統的なポリシーは、意味のある性能を保証するために無限のサンプルを必要とする。
我々は「良さ」の概念として安定性を提案し、政策下の状態力学は高い確率で有界な領域に留まるべきである。
論文 参考訳(メタデータ) (2020-06-08T05:00:25Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。