論文の概要: Adaptive Reinforcement and Model Predictive Control Switching for Safe Human-Robot Cooperative Navigation
- arxiv url: http://arxiv.org/abs/2601.16686v1
- Date: Fri, 23 Jan 2026 12:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.918873
- Title: Adaptive Reinforcement and Model Predictive Control Switching for Safe Human-Robot Cooperative Navigation
- Title(参考訳): 安全ロボット協調ナビゲーションのための適応強化とモデル予測制御スイッチング
- Authors: Ning Liu, Sen Shen, Zheng Li, Matthew D'Souza, Jen Jen Chung, Thomas Braunl,
- Abstract要約: 本稿では,近接制御と安全制約の同時実施による移動ロボットの人間誘導ナビゲーションの課題について論じる。
本稿では,ハイブリッド学習制御フレームワークであるAdaptive Reinforcement and Model Predictive Control Switching (ARMS)を紹介する。
乱雑な環境でARMSが82.5パーセントの成功率を達成することを示す。
- 参考スコア(独自算出の注目度): 10.614812216110673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of human-guided navigation for mobile collaborative robots under simultaneous proximity regulation and safety constraints. We introduce Adaptive Reinforcement and Model Predictive Control Switching (ARMS), a hybrid learning-control framework that integrates a reinforcement learning follower trained with Proximal Policy Optimization (PPO) and an analytical one-step Model Predictive Control (MPC) formulated as a quadratic program safety filter. To enable robust perception under partial observability and non-stationary human motion, ARMS employs a decoupled sensing architecture with a Long Short-Term Memory (LSTM) temporal encoder for the human-robot relative state and a spatial encoder for 360-degree LiDAR scans. The core contribution is a learned adaptive neural switcher that performs context-aware soft action fusion between the two controllers, favoring conservative, constraint-aware QP-based control in low-risk regions while progressively shifting control authority to the learned follower in highly cluttered or constrained scenarios where maneuverability is critical, and reverting to the follower action when the QP becomes infeasible. Extensive evaluations against Pure Pursuit, Dynamic Window Approach (DWA), and an RL-only baseline demonstrate that ARMS achieves an 82.5 percent success rate in highly cluttered environments, outperforming DWA and RL-only approaches by 7.1 percent and 3.1 percent, respectively, while reducing average computational latency by 33 percent to 5.2 milliseconds compared to a multi-step MPC baseline. Additional simulation transfer in Gazebo and initial real-world deployment results further indicate the practicality and robustness of ARMS for safe and efficient human-robot collaboration. Source code and a demonstration video are available at https://github.com/21ning/ARMS.git.
- Abstract(参考訳): 本稿では,近接制御と安全制約の同時実施による移動ロボットの人間誘導ナビゲーションの課題について論じる。
本稿では、PPO(Proximal Policy Optimization)で訓練された強化学習追従者と、2次プログラム安全性フィルタとして定式化された分析ワンステップモデル予測制御(MPC)を統合したハイブリッド学習制御フレームワークであるAdaptive Reinforcement and Model Predictive Control Switching(ARMS)を紹介する。
部分的可観測性と非定常的人間の動作下でのロバストな認識を可能にするため、ARMSは、人間ロボットの相対状態に対するLong Short-Term Memory(LSTM)時間エンコーダと、360度LiDARスキャンのための空間エンコーダを備えた分離されたセンシングアーキテクチャを採用している。
コアコントリビューションは、2つのコントローラ間でコンテキスト対応のソフトアクション融合を実行し、低リスク領域における保守的で制約対応のQPベースの制御を好ましく、かつ、操作性が重要または制約された高度に散らばったシナリオにおいて、制御権限を学習追従者に段階的にシフトさせ、QPが実現不可能になったときに追従動作に戻る学習適応型ニューラルスイッチである。
Pure Pursuit, Dynamic Window Approach (DWA) および RL のみのベースラインに対する大規模な評価は、ARMS が高度に乱雑な環境で 82.5 パーセントの成功率を達成することを示し、DWA と RL のみのアプローチをそれぞれ 7.1% と 3.1% で上回り、また、マルチステップ MPC ベースラインと比較して平均計算レイテンシを 33% から 5.2 ミリ秒 に減らした。
ガゼボでのさらなるシミュレーションと実際の展開の結果は、安全で効率的な人間とロボットのコラボレーションのためのARMSの実用性と堅牢性を示している。
ソースコードとデモビデオはhttps://github.com/21ning/ARMS.gitで公開されている。
関連論文リスト
- Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces [3.349003999623489]
本稿では,カスタム6自由度上肢ロボットのための共有制御型リハビリテーションポリシーを提案する。
患者は二進法で一次到達方向を制御し、ロボットは自律的に矯正動作を管理する。
論文 参考訳(メタデータ) (2026-03-06T11:15:10Z) - ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - Safe Whole-Body Loco-Manipulation via Combined Model and Learning-based Control [46.47619556874003]
そこで本研究では,マニピュレータアームのモデルベースアプタンス制御と足歩行の強化学習ポリシを組み合わせた全身制御を提案する。
アクセタンスコントローラは、物理的相互作用中に人間によって適用されるような外部レンチを、望ましいエンドエフェクタ速度にマッピングし、従順な振る舞いを可能にする。
6-DoFアームと手首に装着した6-DoF Force/Torqueセンサーを備えたUnitree Go2四足歩行ロボットを用いて,シミュレーションとハードウェアの両方におけるアプローチを検証する。
論文 参考訳(メタデータ) (2026-03-02T22:31:12Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Explainable AI-Enhanced Supervisory Control for Robust Multi-Agent Robotic Systems [0.0]
マルチエージェントロボットのためのAI強化型監視制御フレームワークを提案する。
我々は、このアプローチを、宇宙船形成飛行と自律水中車両の2つの対照的な領域で検証した。
論文 参考訳(メタデータ) (2025-09-18T23:59:13Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。