論文の概要: Stability of Control Lyapunov Function Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.01978v1
- Date: Sun, 03 May 2026 17:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.029961
- Title: Stability of Control Lyapunov Function Guided Reinforcement Learning
- Title(参考訳): 強化学習におけるリアプノフ関数の安定性
- Authors: Zachary Olkin, William D. Compton, Aaron D. Ames,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、実際にヒューマノイドロボットの移動を実現するための事実上の方法である。
近年の研究では、制御指導学習を通じて、理論的アイデアと強化学習を融合させようと試みている。
本稿では,CLF-RLを用いた最適制御器の安定性について検討する。
- 参考スコア(独自算出の注目度): 18.29294248332071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has become the de facto method for achieving locomotion on humanoid robots in practice, yet stability analysis of the corresponding control policies is lacking. Recent work has attempted to merge control theoretic ideas with reinforcement learning through control guided learning. A notable example of this is the use of a control Lyapunov function (CLF) to synthesize the reinforcement learning rewards, a technique known as CLF-RL, which has shown practical success. This paper investigates the stability properties of optimal controllers using CLF-RL with the goal of bridging experimentally observed stability with theoretical guarantees. The RL problem is viewed as an optimal control problem and exponential stability is proven in both continuous and discrete time using both core CLF reward terms and the additional terms used in practice. The theoretical bounds are numerically verified on systems such as the double integrator and cart-pole. Finally, the CLF guided rewards are implemented for a walking humanoid robot to generate stable periodic orbits.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、実際にヒューマノイドロボットの移動を実現するデファクト手法となっているが、対応する制御ポリシーの安定性解析は欠如している。
近年の研究では、制御指導学習を通じて、理論的アイデアと強化学習を融合させようと試みている。
この顕著な例は、強化学習報酬(CLF-RLとして知られる技術)を合成するための制御リャプノフ関数(CLF)の使用である。
本稿では,CLF-RLを用いた最適制御器の安定性特性について検討する。
RL問題は最適制御問題と見なされ、指数的安定性はコアCLF報酬項と実際に用いられる追加項の両方を用いて連続時間と離散時間の両方で証明される。
理論的境界は二重積分器やカートポールのようなシステムで数値的に検証される。
最後に、CLF誘導報酬を歩行ヒューマノイドロボットに実装し、安定した周期軌道を生成する。
関連論文リスト
- Stabilizing Policy Optimization via Logits Convexity [59.242732612484474]
モデルロジットに対する教師付き微調整損失の凸性は、安定したトレーニングを可能にする上で重要な役割を担っていることを示す。
そこで本研究では,ロジッツ・コンベックス最適化(Logits Convex Optimization, LCO)を提案する。
論文 参考訳(メタデータ) (2026-03-01T07:40:12Z) - ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning [75.73135757250806]
エージェント強化学習(ARL)は、複雑で多段階の対話的なタスクを解決するためのトレーニングエージェントにとって有望なパラダイムとして急速に注目を集めている。
初期の成果を奨励しているにもかかわらず、ARLは非常に不安定であり、しばしばトレーニングの崩壊につながる。
本稿では,制御された再現可能な環境下でのトレーニング安定性を検証した,安定したトレーニングレシピと系統的分析フレームワークであるARLArenaを提案する。
論文 参考訳(メタデータ) (2026-02-25T03:43:34Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - CRL-VLA: Continual Vision-Language-Action Learning [40.18167835795084]
連続強化学習は、生涯にわたるロボットシナリオにVLAモデルをデプロイするための、有望な経路である。
本稿では,厳密な理論的境界を持つVLAモデルの連続的な後学習のためのフレームワークであるCRL-VLAを紹介する。
安定塑性トレードオフと目標条件付き有利度をリンクする統一的な性能境界を,政策のばらつきによって拡張する。
論文 参考訳(メタデータ) (2026-02-03T12:09:53Z) - Lyapunov Stability Learning with Nonlinear Control via Inductive Biases [21.083462885546556]
制御Lyapunov関数(CLF)をコントローラで動的システムで見つけることは、安定性を保証する効果的な方法である。
近年, CLFを表現したディープラーニングモデルを学習者検証フレームワークに適用し, 満足度の高い候補を同定している。
我々は、リアプノフ条件を誘導バイアスとして扱うことにより、この枠組みを改善し、この知識によって導かれる神経CLFとCLFベースのコントローラを設計する。
論文 参考訳(メタデータ) (2025-11-03T06:57:37Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions [15.306107403623075]
最適制御・強化学習(RL)に基づく制御ポリシ下での閉ループシステムの安定性の証明問題について検討する。
古典的なリャプノフ法は、リャプノフ関数の厳格な段階的減少を必要とするが、そのような証明は学習された制御ポリシーのために構築することは困難である。
ニューラルネットワーク残差項でRL値関数を増大させることにより、一般化されたリアプノフ関数を学習するためのアプローチを定式化する。
論文 参考訳(メタデータ) (2025-05-16T07:36:40Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Actor-Critic Reinforcement Learning for Control with Stability Guarantee [9.400585561458712]
強化学習(RL)と深層学習の統合は、様々なロボット制御タスクにおいて印象的なパフォーマンスを達成した。
しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。
本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T16:14:30Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。