論文の概要: Contraction Actor-Critic: Contraction Metric-Guided Reinforcement Learning for Robust Path Tracking
- arxiv url: http://arxiv.org/abs/2506.15700v1
- Date: Wed, 28 May 2025 22:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.764457
- Title: Contraction Actor-Critic: Contraction Metric-Guided Reinforcement Learning for Robust Path Tracking
- Title(参考訳): 契約アクタクリティカル:ロバストパス追跡のための契約メトリックガイド強化学習
- Authors: Minjae Cho, Hiroyasu Tsukamoto, Huy Trong Tran,
- Abstract要約: 制御収縮メトリック(CCM)は、コントローラと対応する収縮メトリックを共合成するフレームワークを提供する。
我々は,CCMを強化学習(RL)に統合し,CCMが動的インフォームドフィードバックを学習制御ポリシーにもたらすことを提案する。
我々は,契約アクタ批判 (CAC) と呼ばれるアルゴリズムが,契約ポリシーのセットを提供するためのCCMの能力を公式に強化することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Control contraction metrics (CCMs) provide a framework to co-synthesize a controller and a corresponding contraction metric -- a positive-definite Riemannian metric under which a closed-loop system is guaranteed to be incrementally exponentially stable. However, the synthesized controller only ensures that all the trajectories of the system converge to one single trajectory and, as such, does not impose any notion of optimality across an entire trajectory. Furthermore, constructing CCMs requires a known dynamics model and non-trivial effort in solving an infinite-dimensional convex feasibility problem, which limits its scalability to complex systems featuring high dimensionality with uncertainty. To address these issues, we propose to integrate CCMs into reinforcement learning (RL), where CCMs provide dynamics-informed feedback for learning control policies that minimize cumulative tracking error under unknown dynamics. We show that our algorithm, called contraction actor-critic (CAC), formally enhances the capability of CCMs to provide a set of contracting policies with the long-term optimality of RL in a fully automated setting. Given a pre-trained dynamics model, CAC simultaneously learns a contraction metric generator (CMG) -- which generates a contraction metric -- and uses an actor-critic algorithm to learn an optimal tracking policy guided by that metric. We demonstrate the effectiveness of our algorithm relative to established baselines through extensive empirical studies, including simulated and real-world robot experiments, and provide a theoretical rationale for incorporating contraction theory into RL.
- Abstract(参考訳): 制御収縮計量(CCM)は、コントローラと対応する収縮計量を共合成するフレームワークを提供する。
しかし、合成された制御器は、系のすべての軌跡が一つの軌跡に収束することだけを保証し、したがって、全軌跡にわたって最適性の概念を課さない。
さらに、CCMの構築には、無限次元凸実現可能性問題を解くための既知の力学モデルと非自明な努力が必要である。
これらの問題に対処するために,CCMを強化学習(RL)に統合することを提案する。
我々は,契約アクタ批判 (CAC) と呼ばれるアルゴリズムが,完全に自動化された環境でRLの長期的最適性を備えた契約ポリシーのセットを提供するために,CCMの能力を正式に強化することを示した。
事前訓練された力学モデルが与えられた後、CACは同時に収縮計量生成器(CMG)を学習し、収縮計量を生成する。
本研究では,ロボット実験のシミュレーションや実世界の実験を含む広範な実験を通じて,確立されたベースラインに対するアルゴリズムの有効性を実証し,契約理論をRLに組み込む理論的理論的根拠を提供する。
関連論文リスト
- Data-Assimilated Model-Based Reinforcement Learning for Partially Observed Chaotic Flows [3.7960472831772765]
本稿では,部分観測可能性と雑音測定を行うシステムのためのデータ同化モデルベースRL(DA-MBRL)フレームワークを提案する。
状態推定から最適制御戦略を学習するために,非政治アクター批判アルゴリズムを用いる。
この枠組みは倉本-シヴァインスキーシュ方程式で検証され、時間的にカオス的な流れを安定化させる効果を実証した。
論文 参考訳(メタデータ) (2025-04-23T10:12:53Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Imitation Learning for Robust and Safe Real-time Motion Planning: A
Contraction Theory Approach [9.35511513240868]
LAG-ROSは、境界外乱によって乱される安全臨界非線形システムのリアルタイムロバストな動作計画アルゴリズムである。
LAG-ROSはリアルタイム計算のためのより速い実行の速度のより高い制御性能そしてタスクの成功率を達成します。
論文 参考訳(メタデータ) (2021-02-25T03:47:15Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z) - Relaxed Actor-Critic with Convergence Guarantees for Continuous-Time
Optimal Control of Nonlinear Systems [13.4515419017437]
RCTACは非線形連続時間系に対するほぼ最適なポリシーを見つける方法である。
既知のアルゴリズムの「親和性」や、収束のための制御システムの入力-親和性を必要としない。
アルゴリズムの収束性と最適性は、リャプノフ解析によって証明される。
論文 参考訳(メタデータ) (2019-09-11T23:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。