論文の概要: Reinforcement Learning Goal-Reaching Control with Guaranteed Lyapunov-Like Stabilizer for Mobile Robots
- arxiv url: http://arxiv.org/abs/2601.19499v1
- Date: Tue, 27 Jan 2026 11:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 05:32:17.800972
- Title: Reinforcement Learning Goal-Reaching Control with Guaranteed Lyapunov-Like Stabilizer for Mobile Robots
- Title(参考訳): 移動ロボットのためのリアプノフ様安定化器による強化学習目標到達制御
- Authors: Mehdi Heydari Shahna, Seyed Adel Alizadeh Kolagar, Jouni Mattila,
- Abstract要約: 強化学習は、目標達成ポリシーを学習するのに非常に効果的であるが、通常、目標が常に達成されるという正式な保証は提供しない。
本稿では,非構造環境で動作する車輪付き移動ロボットに対して,正式な目標達成保証を提供するRLベースの制御フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.632189127068905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) can be highly effective at learning goal-reaching policies, but it typically does not provide formal guarantees that the goal will always be reached. A common approach to provide formal goal-reaching guarantees is to introduce a shielding mechanism that restricts the agent to actions that satisfy predefined safety constraints. The main challenge here is integrating this mechanism with RL so that learning and exploration remain effective without becoming overly conservative. Hence, this paper proposes an RL-based control framework that provides formal goal-reaching guarantees for wheeled mobile robots operating in unstructured environments. We first design a real-time RL policy with a set of 15 carefully defined reward terms. These rewards encourage the robot to reach both static and dynamic goals while generating sufficiently smooth command signals that comply with predefined safety specifications, which is critical in practice. Second, a Lyapunov-like stabilizer layer is integrated into the benchmark RL framework as a policy supervisor to formally strengthen the goal-reaching control while preserving meaningful exploration of the state action space. The proposed framework is suitable for real-time deployment in challenging environments, as it provides a formal guarantee of convergence to the intended goal states and compensates for uncertainties by generating real-time control signals based on the current state, while respecting real-world motion constraints. The experimental results show that the proposed Lyapunov-like stabilizer consistently improves the benchmark RL policies, boosting the goal-reaching rate from 84.6% to 99.0%, sharply reducing failures, and improving efficiency.
- Abstract(参考訳): 強化学習(RL)は、目標達成政策の学習において非常に効果的であるが、通常、目標が常に達成されるという正式な保証は提供しない。
正式な目標達成保証を提供するための一般的なアプローチは、事前に定義された安全制約を満たすアクションにエージェントを制限するシールド機構を導入することである。
ここでの最大の課題は、このメカニズムをRLに統合することで、学習と探索が過度に保守的になることなく効果的に行えるようにすることである。
そこで本研究では,非構造環境で動作する車輪付き移動ロボットに対して,正式な目標到達保証を提供するRLベースの制御フレームワークを提案する。
まず、15個の報酬項を慎重に定義したリアルタイムRLポリシーを設計する。
これらの報酬は、ロボットが静的目標と動的目標の両方に到達するのを奨励すると同時に、事前に定義された安全仕様に準拠した十分なスムーズなコマンド信号を生成する。
第2に、リアプノフ様安定化層をベンチマークRLフレームワークに統合し、状態行動空間の有意義な探索を保ちつつ、目標達成制御を正式に強化する政策スーパーバイザとする。
提案フレームワークは,現実の動作制約を尊重しつつ,現在状態に基づいてリアルタイム制御信号を生成することにより,意図した目標状態への収束の正式な保証と不確実性補償を提供するため,課題のある環境におけるリアルタイム展開に適したフレームワークである。
実験の結果,提案したリアプノフ型安定器はベンチマークRLポリシーを一貫して改善し,目標達成率を84.6%から99.0%に引き上げ,故障を著しく低減し,効率を向上した。
関連論文リスト
- Robust Regularized Policy Iteration under Transition Uncertainty [6.7431287237221085]
我々は、オフラインRLをロバストなポリシー最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱う。
本稿では、抽出可能な最大最小二レベル目標を、抽出可能なKL正規化サロゲートに置き換えるロバスト正規化ポリシーイテレーション(RRPI)を提案する。
D4RLベンチマークの実験では、RRPIは高い平均性能を示し、最近のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:18:27Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - A Safety-Constrained Reinforcement Learning Framework for Reliable Wireless Autonomy [1.5469452301122173]
本稿では,実証搬送制御とエンパワーメント予算(EB)適用を統合した,積極的な安全制約付きRLフレームワークを提案する。
本手法は, 性能劣化を最小限に抑え, 証明可能な安全保証を実現する。
その結果,将来の6Gネットワークにおける信頼性の高い無線自律性を実現するために,プロアクティブな安全制約付きRLの可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2026-01-12T02:02:52Z) - Policy Disruption in Reinforcement Learning:Adversarial Attack with Large Language Models and Critical State Identification [8.292056374554162]
強化学習(Reinforcement Learning, RL)は、ロボット工学や自律運転などの分野で大きな成功を収めている。
既存のアプローチはしばしば環境やポリシーの変更に依存し、実用性を制限する。
本稿では,環境の変化を伴わずにターゲットポリシーを誘導し,準最適動作を出力する敵攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-07-24T05:52:06Z) - A novel agent with formal goal-reaching guarantees: an experimental study with a mobile robot [0.0]
強化学習 (Reinforcement Learning, RL) は, ロボット工学における多くの課題に対して有効かつ便利であることが示されている。
この研究は、Crytic As Lyapunov Function(CALF)と呼ばれる新しい安全なモデルフリーRLエージェントを提示する。
論文 参考訳(メタデータ) (2024-09-23T10:04:28Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。