論文の概要: Risk-Bounded Multi-Agent Visual Navigation via Dynamic Budget Allocation
- arxiv url: http://arxiv.org/abs/2509.08157v1
- Date: Tue, 09 Sep 2025 21:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.254126
- Title: Risk-Bounded Multi-Agent Visual Navigation via Dynamic Budget Allocation
- Title(参考訳): 動的予算割当によるリスク境界付きマルチエージェントビジュアルナビゲーション
- Authors: Viraj Parimi, Brian C. Williams,
- Abstract要約: 従来の計画手法は、長距離タスクを解くのに優れているが、事前に定義された距離メトリクスに依存している。
本稿では,ユーザの特定リスク境界を動的に割り当て,調整する RB-CBS を提案する。
改善したプランナーにより、各エージェントは、全体的な安全制約を尊重しつつ、より効率的なナビゲーションを可能にする、局所的なリスク予算を得られることが保証される。
- 参考スコア(独自算出の注目度): 3.7347677698423536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe navigation is essential for autonomous systems operating in hazardous environments, especially when multiple agents must coordinate using just visual inputs over extended time horizons. Traditional planning methods excel at solving long-horizon tasks but rely on predefined distance metrics, while safe Reinforcement Learning (RL) can learn complex behaviors using high-dimensional inputs yet struggles with multi-agent, goal-conditioned scenarios. Recent work combined these paradigms by leveraging goal-conditioned RL (GCRL) to build an intermediate graph from replay buffer states, pruning unsafe edges, and using Conflict-Based Search (CBS) for multi-agent path planning. Although effective, this graph-pruning approach can be overly conservative, limiting mission efficiency by precluding missions that must traverse high-risk regions. To address this limitation, we propose RB-CBS, a novel extension to CBS that dynamically allocates and adjusts user-specified risk bound ($\Delta$) across agents to flexibly trade off safety and speed. Our improved planner ensures that each agent receives a local risk budget ($\delta$) enabling more efficient navigation while still respecting overall safety constraints. Experimental results demonstrate that this iterative risk-allocation framework yields superior performance in complex environments, allowing multiple agents to find collision-free paths within the user-specified $\Delta$.
- Abstract(参考訳): 安全ナビゲーションは、特に複数のエージェントが、長い時間的地平線上で単に視覚的な入力を使用して調整する必要がある場合、危険な環境で運用する自律システムにとって不可欠である。
従来の計画手法は、長距離タスクを解くのに優れているが、事前定義された距離メトリクスに依存している。一方、安全な強化学習(RL)は高次元入力を用いて複雑な振る舞いを学習できるが、多エージェントでゴール条件付きシナリオでは苦労する。
最近の研究は、ゴール条件付きRL(GCRL)を活用してバッファ状態の再生から中間グラフを構築し、安全でないエッジを刈り取り、マルチエージェントパス計画にConflict-Based Search(CBS)を使用した。
このグラフ解析手法は有効ではあるが、過度に保守的であり、高リスク領域を横断するミッションを先送りすることでミッション効率を制限できる。
この制限に対処するために、RB-CBSを提案する。RB-CBSは、安全とスピードを柔軟にトレードオフするために、エージェント間でユーザー特定リスクバウンド(\Delta$)を動的に割り当て、調整するCBSの新しい拡張である。
改善されたプランナーは、各エージェントが全体の安全制約を尊重しつつ、より効率的なナビゲーションを可能にするローカルリスク予算(\delta$)を受け取ることを保証します。
実験の結果、この反復的リスク割り当てフレームワークは複雑な環境において優れた性能を示し、複数のエージェントがユーザの指定した$\Delta$内で衝突のない経路を見つけることができることがわかった。
関連論文リスト
- AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - Designing Control Barrier Function via Probabilistic Enumeration for Safe Reinforcement Learning Navigation [55.02966123945644]
本稿では,ニューラルネットワーク検証技術を利用して制御障壁関数(CBF)とポリシー修正機構の設計を行う階層型制御フレームワークを提案する。
提案手法は,安全なCBFベースの制御層を構築するために使用される,安全でない操作領域を特定するための確率的列挙に依存する。
これらの実験は、効率的なナビゲーション動作を維持しながら、安全でない動作を補正する提案手法の能力を実証するものである。
論文 参考訳(メタデータ) (2025-04-30T13:47:25Z) - Safe Multi-Agent Navigation guided by Goal-Conditioned Safe Reinforcement Learning [2.082168997977094]
計画と安全RLの双方の長所を統合する新しい手法を提案する。
提案手法は安全でないエッジを抽出し,エージェントが目標に到達するまで追従するウェイポイントベースのプランを生成する。
特に、Conflict-Based Search (CBS)を活用して、複数のエージェントのためのウェイポイントベースのプランを作成し、拡張された地平線上の安全なナビゲーションを可能にします。
論文 参考訳(メタデータ) (2025-02-25T03:38:52Z) - Integrated Sensing and Communications for Low-Altitude Economy: A Deep Reinforcement Learning Approach [20.36806314683902]
低高度経済(LAE)のための統合センシング・通信(ISAC)システムについて検討する。
所定の飛行期間における通信総和レートは、GBSとUAVの軌道でのビームフォーミングを共同最適化することにより最大化する。
本稿では, 深部強化学習(DRL)技術を活用して, 深部LAE-ISAC(Deep LAE-ISAC)と呼ばれる新しいLEE指向ISAC方式を提案する。
論文 参考訳(メタデータ) (2024-12-05T11:12:46Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。