論文の概要: Safe Multi-Agent Navigation guided by Goal-Conditioned Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.17813v1
- Date: Tue, 25 Feb 2025 03:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:21:01.213032
- Title: Safe Multi-Agent Navigation guided by Goal-Conditioned Safe Reinforcement Learning
- Title(参考訳): Goal-Conditioned Safe Reinforcement Learning による安全なマルチエージェントナビゲーション
- Authors: Meng Feng, Viraj Parimi, Brian Williams,
- Abstract要約: 計画と安全RLの双方の長所を統合する新しい手法を提案する。
提案手法は安全でないエッジを抽出し,エージェントが目標に到達するまで追従するウェイポイントベースのプランを生成する。
特に、Conflict-Based Search (CBS)を活用して、複数のエージェントのためのウェイポイントベースのプランを作成し、拡張された地平線上の安全なナビゲーションを可能にします。
- 参考スコア(独自算出の注目度): 2.082168997977094
- License:
- Abstract: Safe navigation is essential for autonomous systems operating in hazardous environments. Traditional planning methods excel at long-horizon tasks but rely on a predefined graph with fixed distance metrics. In contrast, safe Reinforcement Learning (RL) can learn complex behaviors without relying on manual heuristics but fails to solve long-horizon tasks, particularly in goal-conditioned and multi-agent scenarios. In this paper, we introduce a novel method that integrates the strengths of both planning and safe RL. Our method leverages goal-conditioned RL and safe RL to learn a goal-conditioned policy for navigation while concurrently estimating cumulative distance and safety levels using learned value functions via an automated self-training algorithm. By constructing a graph with states from the replay buffer, our method prunes unsafe edges and generates a waypoint-based plan that the agent follows until reaching its goal, effectively balancing faster and safer routes over extended distances. Utilizing this unified high-level graph and a shared low-level goal-conditioned safe RL policy, we extend this approach to address the multi-agent safe navigation problem. In particular, we leverage Conflict-Based Search (CBS) to create waypoint-based plans for multiple agents allowing for their safe navigation over extended horizons. This integration enhances the scalability of goal-conditioned safe RL in multi-agent scenarios, enabling efficient coordination among agents. Extensive benchmarking against state-of-the-art baselines demonstrates the effectiveness of our method in achieving distance goals safely for multiple agents in complex and hazardous environments. Our code will be released to support future research.
- Abstract(参考訳): 安全ナビゲーションは、危険環境で稼働する自律システムにとって不可欠である。
従来の計画手法は、長い水平なタスクでは優れているが、固定距離のメトリクスを持つ事前定義されたグラフに依存している。
対照的に、安全な強化学習(RL)は、手動のヒューリスティックに頼らずに複雑な振る舞いを学ぶことができるが、特にゴール条件やマルチエージェントのシナリオにおいて、長期的なタスクを解決できない。
本稿では,計画と安全RLの双方の長所を統合する新しい手法を提案する。
本手法は,目標条件付きRLと安全RLを利用して,自動自己学習アルゴリズムを用いて,累積距離と安全性レベルを同時に推定しながら,ナビゲーションのための目標条件付きポリシーを学習する。
リプレイバッファから状態を持つグラフを構築することで、安全でないエッジを抽出し、目標に到達するまでエージェントが追従するウェイポイントベースのプランを生成し、より高速で安全なルートを、より長い距離で効果的にバランスさせる。
この統合された高レベルグラフと共有低レベル目標条件付き安全なRLポリシーを用いることで、マルチエージェント安全なナビゲーション問題に対処する。
特に、Conflict-Based Search (CBS)を活用して、複数のエージェントのためのウェイポイントベースのプランを作成し、拡張された水平線上の安全なナビゲーションを可能にします。
この統合により、マルチエージェントシナリオにおけるゴール条件付き安全なRLのスケーラビリティが向上し、エージェント間の効率的な調整が可能になる。
最先端のベースラインに対する広範囲なベンチマークは、複雑で有害な環境で複数のエージェントに対して安全な距離目標を達成する上で、我々の手法の有効性を示す。
私たちのコードは将来の研究をサポートするためにリリースされます。
関連論文リスト
- Multi-agent Path Finding for Timed Tasks using Evolutionary Games [1.3023548510259344]
我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。
以上の結果から,他の方法と比較してエージェント数の増加にともなってスケールが向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T20:10:25Z) - Safe Policy Exploration Improvement via Subgoals [44.07721205323709]
強化学習(Reinforcement learning)は、自律ナビゲーションにおいて広く使われているアプローチであり、様々なタスクやロボットのセットアップの可能性を示している。
このようなセットアップでパフォーマンスが低かった理由の1つは、安全制約を尊重する必要性がRLエージェントの探索能力を低下させることである。
本稿では,初期問題を中間目標を介し,より小さなサブプロブレムに分解する新しい学習可能アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-25T16:12:49Z) - Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T05:20:57Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Reinforcement Learning-Based Air Traffic Deconfliction [7.782300855058585]
本研究は,2機の水平分離を自動化することに焦点を当て,障害物回避問題を2次元サロゲート最適化課題として提示する。
強化学習(RL)を用いて、回避ポリシーを最適化し、ダイナミクス、インタラクション、意思決定をモデル化する。
提案システムは,安全要件を満たす高速かつ達成可能な回避軌道を生成する。
論文 参考訳(メタデータ) (2023-01-05T00:37:20Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。