論文の概要: ContractionPPO: Certified Reinforcement Learning via Differentiable Contraction Layers
- arxiv url: http://arxiv.org/abs/2603.19632v1
- Date: Fri, 20 Mar 2026 04:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.993066
- Title: ContractionPPO: Certified Reinforcement Learning via Differentiable Contraction Layers
- Title(参考訳): ContractionPPO: 微分可縮層による認証強化学習
- Authors: Vrushabh Zinage, Narek Harutyunyan, Eric Verheyden, Fred Y. Hadaegh, Soon-Jo Chung,
- Abstract要約: 本稿では,手足ロボットのロバストな計画と制御のためのフレームワークであるContractionPPOを提案する。
収縮PPOは、模擬閉ループ系の指数的安定性を証明する収縮計量を生成する。
四足歩行におけるハードウェア実験により,強い外乱下であっても,ContractionPPOは頑健で安定な制御を可能にすることが示された。
- 参考スコア(独自算出の注目度): 5.690649768462432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legged locomotion in unstructured environments demands not only high-performance control policies but also formal guarantees to ensure robustness under perturbations. Control methods often require carefully designed reference trajectories, which are challenging to construct in high-dimensional, contact-rich systems such as quadruped robots. In contrast, Reinforcement Learning (RL) directly learns policies that implicitly generate motion, and uniquely benefits from access to privileged information, such as full state and dynamics during training, that is not available at deployment. We present ContractionPPO, a framework for certified robust planning and control of legged robots by augmenting Proximal Policy Optimization (PPO) RL with a state-dependent contraction metric layer. This approach enables the policy to maximize performance while simultaneously producing a contraction metric that certifies incremental exponential stability of the simulated closed-loop system. The metric is parameterized as a Lipschitz neural network and trained jointly with the policy, either in parallel or as an auxiliary head of the PPO backbone. While the contraction metric is not deployed during real-world execution, we derive upper bounds on the worst-case contraction rate and show that these bounds ensure the learned contraction metric generalizes from simulation to real-world deployment. Our hardware experiments on quadruped locomotion demonstrate that ContractionPPO enables robust, certifiably stable control even under strong external perturbations.
- Abstract(参考訳): 構造化されていない環境でのロコムーブメントは、高性能な制御ポリシーだけでなく、摂動下での堅牢性を保証するための正式な保証も要求する。
制御法は、しばしば慎重に設計された参照軌跡を必要とするが、四足歩行ロボットのような高次元の接触リッチシステムの構築は困難である。
対照的に、強化学習(Reinforcement Learning, RL)は、動作を暗黙的に生成するポリシを直接学習する。
本稿では,PPO (Proximal Policy Optimization) RL を状態依存型収縮計量層で拡張することにより,足場ロボットのロバストな計画と制御を行うためのフレームワークであるContractionPPOを提案する。
このアプローチにより、シミュレーションされた閉ループシステムの漸進的指数安定性を証明した収縮計量を同時に生成しながら、性能を最大化することができる。
この計量はリプシッツニューラルネットワークとしてパラメータ化され、PPOバックボーンの補助ヘッドとして、または平行に、ポリシーと共同で訓練される。
実世界の実行中に収縮計量は展開されないが、最悪の収縮率の上限を導き、これらの境界が学習された収縮計量がシミュレーションから実世界の展開へ一般化することを確実にすることを示す。
四足歩行におけるハードウェア実験により,強い外乱下であっても,ContractionPPOは頑健で安定な制御を可能にすることが示された。
関連論文リスト
- Task-Specified Compliance Bounds for Humanoids via Lipschitz-Constrained Policies [1.7446104539598897]
我々は,タスク空間の剛性の上界をヤコビアン政策上の状態依存リプシッツ式制約にマッピングする異方性リプシッツ制約ポリシー(ALCP)を提案する。
結果として生じる制約は、ヒンジ二乗スペクトルノルムのペナルティを通じてRLトレーニング中に実施され、物理的解釈性を維持しながら、方向依存のコンプライアンスを可能にする。
論文 参考訳(メタデータ) (2026-03-17T07:00:32Z) - An Optimal Control Approach To Transformer Training [7.136933021609078]
重要な構造的制約を尊重するトランスフォーマートレーニングに対する厳密な最適制御理論アプローチを開発する。
確率測度に引き上げることによって、完全に観測されたマルコフ決定過程(MDP)が生成されることを示す。
トランスフォーマーを訓練するために,状態空間,確率測度,行動空間を定量化することにより,昇降型MDPの3次元量子化訓練手順を提案する。
論文 参考訳(メタデータ) (2026-03-10T12:17:48Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。