論文の概要: Learned Lyapunov Shielding for Adaptive Control
- arxiv url: http://arxiv.org/abs/2605.06934v1
- Date: Thu, 07 May 2026 20:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.617032
- Title: Learned Lyapunov Shielding for Adaptive Control
- Title(参考訳): 適応制御のためのリアプノフシールドの学習
- Authors: Giansalvo Cirrincione, Adriano Fagiolini,
- Abstract要約: 我々は3つの学習成分を持つラグランジュ系に対するSlotine--Li適応制御器を拡張した。
クローズドフォームの安全フィルタは、オンラインQP解決器を必要とせずに、すべてのポリシー出力を安全なセットに投影する。
フランカ・エミカ・パンダ(Franka Emika Panda)による7-DOFのスケーラビリティに関する研究では、産業規模での完全なパイプラインのクリーンな収束を確認している。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We augment the Slotine--Li adaptive controller for Euler--Lagrange systems with three learned components: a structured-quadratic Lyapunov function \(V_ψ\) whose positive-definiteness follows from a Cholesky parameterization, a residual Soft Actor--Critic policy that adds bounded torque corrections to the analytic baseline, and a physics-informed neural network that estimates unmodeled dynamics. A closed-form safety filter, derived from the single affine constraint \(\dot V_ψ+ αV_ψ\le 0\), projects every policy output onto the safe set without requiring an online QP solver. We prove: global feasibility of the filter under a drift-decay condition on the control-degeneracy set; exponential stability under exact shielding, with a robust extension whose margin depends on the PINN approximation error; almost-sure convergence of the three-timescale policy--certificate--multiplier updates to a KKT point; and a PAC generalization bound for the certificate over compacts. On a 2-DOF manipulator with nonlinear friction and variable payload, the learned certificate accounts for most of the empirical gain: tracking error drops by 41\% on nominal friction and 24\% on aggressive friction at the centroid of the training distribution. A 7-DOF scalability study on a Franka Emika Panda confirms clean convergence of the full pipeline at industrial scale, identifies the conditions under which gains over exact model-based baselines should and should not be expected, and documents a warm-start pathology of the learned certificate that has practical implications for deployment.
- Abstract(参考訳): 我々は,3つの学習成分を持つオイラー-ラグランジュ系に対するSlotine--Li適応制御系を,Choleskyパラメータ化による正定性を持つ構造的クワッドラティック・リャプノフ関数 \(V_a\) と,解析ベースラインに有界トルク補正を加える残差型ソフトアクター-Critic ポリシと,非モデル力学を推定する物理インフォームドニューラルネットワークで拡張する。
単一のアフィン制約 \(\dot V_n+ αV_n\le 0\) から導かれる閉形式安全フィルタは、オンラインQPソルバを必要とせずに、すべてのポリシー出力を安全なセットに投影する。
制御縮退条件下でのフィルタの大域的実現性、正確な遮蔽の下での指数的安定性、PINN近似誤差に依存するマージンを持つ頑健な拡張、KKT点に対する3段階のポリシー-証明-乗算器更新のほぼ全括収束、およびコンパクトよりも証明書のPAC一般化を証明した。
非線形摩擦と可変ペイロードを持つ2-DOFマニピュレータでは、学習証明書が経験的利益の大部分を担っている。
フランカ・エミカ・パンダ(Franka Emika Panda)による7-DOFのスケーラビリティ調査では、産業規模での完全なパイプラインのクリーンな収束を確認し、正確なモデルベースベースラインを越え、期待すべきでない条件を特定し、実際にデプロイメントに影響を及ぼす学習証明書のウォームスタートの病理を文書化している。
関連論文リスト
- Beyond the Attention Stability Boundary: Agentic Self-Synthesizing Reasoning Protocols [6.357772907811544]
SSRP(Self- Synthesizing Reasoning Protocols)は、アーキテクチャ計画と手続き実行の分離を実装するメタ認知フレームワークである。
提案する実験層は,浅電流に基づく検索パイロット,高エントロピーSOP,セマンティックハイジャック3ホップ多要素合成タスクの3種類である。
以上の結果から,GPT 5.4の非定常バニラ基準線が0.1%に崩壊し,SSRPは715X耐力限界を達成した。
論文 参考訳(メタデータ) (2026-04-27T14:13:30Z) - Response-Aware Risk-Constrained Control Barrier Function With Application to Vehicles [0.0]
本稿では,車両の動的安全境界制御のための応答認識型リスク制約制御バリア関数に基づく統合制御フレームワークを提案する。
このフレームワークは、制御勾配の基準方向を提供するために、名目力学と直接車体応答を融合する。
また、従来の決定論的安全制約をバリア関数誘導体のテールリスクに関する確率論的制約に再構成する。
論文 参考訳(メタデータ) (2026-03-13T02:38:17Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning [49.25750348525603]
BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
論文 参考訳(メタデータ) (2026-03-05T08:03:05Z) - Safe Urban Traffic Control via Uncertainty-Aware Conformal Prediction and World-Model Reinforcement Learning [43.06827300023392]
STREAM-RLは、不確実性誘導型適応型コンフォーマルフォアキャスター、コンフォーマル残留流ネットワーク、不確実性誘導型セーフワールドモデルRLエージェントである。
複数の実世界の交通軌跡データの実験では、STREAM-RLは91.4%のカバレッジ効率を達成し、FDRを4.1%の信頼性で制御し、標準のPPOの69%に比べて安全性を95.2%向上している。
論文 参考訳(メタデータ) (2026-02-04T18:10:59Z) - How to Train Your Latent Control Barrier Function: Smooth Safety Filtering Under Hard-to-Model Constraints [21.03977709777739]
本研究では,可到達性値関数を制御障壁関数(CBF)に適応させることにより,最適化に基づくスムーズなフィルタリングを実現する。
本稿では,ラベル付けを伴わずにスムーズなマージン関数に繋がる勾配のペナルティによって,両方の課題に対処するLatentCBFを提案する。
視覚に基づく操作ポリシーによるシミュレーションベンチマークとハードウェアの実験は、LatentCBFがスムーズな安全フィルタリングを可能にすることを示した。
論文 参考訳(メタデータ) (2025-11-23T20:15:28Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Distributionally Robust Safety Verification of Neural Networks via Worst-Case CVaR [3.0458514384586404]
本稿では、ニューラルネットワーク検証のためのFazlyabの2次制約(QC)と半定値プログラミング(SDP)フレームワークを構築する。
この統合により、入力不確かさをカバーする楕円体、ポリトープ、超平面が拡張され、安全クリティカルドメインへの適用性も拡張される。
論文 参考訳(メタデータ) (2025-09-22T07:04:53Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。