論文の概要: Risk-Bounded Multi-Agent Visual Navigation via Dynamic Budget Allocation
- arxiv url: http://arxiv.org/abs/2509.08157v1
- Date: Tue, 09 Sep 2025 21:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.254126
- Title: Risk-Bounded Multi-Agent Visual Navigation via Dynamic Budget Allocation
- Title(参考訳): 動的予算割当によるリスク境界付きマルチエージェントビジュアルナビゲーション
- Authors: Viraj Parimi, Brian C. Williams,
- Abstract要約: 従来の計画手法は、長距離タスクを解くのに優れているが、事前に定義された距離メトリクスに依存している。
本稿では,ユーザの特定リスク境界を動的に割り当て,調整する RB-CBS を提案する。
改善したプランナーにより、各エージェントは、全体的な安全制約を尊重しつつ、より効率的なナビゲーションを可能にする、局所的なリスク予算を得られることが保証される。
- 参考スコア(独自算出の注目度): 3.7347677698423536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe navigation is essential for autonomous systems operating in hazardous environments, especially when multiple agents must coordinate using just visual inputs over extended time horizons. Traditional planning methods excel at solving long-horizon tasks but rely on predefined distance metrics, while safe Reinforcement Learning (RL) can learn complex behaviors using high-dimensional inputs yet struggles with multi-agent, goal-conditioned scenarios. Recent work combined these paradigms by leveraging goal-conditioned RL (GCRL) to build an intermediate graph from replay buffer states, pruning unsafe edges, and using Conflict-Based Search (CBS) for multi-agent path planning. Although effective, this graph-pruning approach can be overly conservative, limiting mission efficiency by precluding missions that must traverse high-risk regions. To address this limitation, we propose RB-CBS, a novel extension to CBS that dynamically allocates and adjusts user-specified risk bound ($\Delta$) across agents to flexibly trade off safety and speed. Our improved planner ensures that each agent receives a local risk budget ($\delta$) enabling more efficient navigation while still respecting overall safety constraints. Experimental results demonstrate that this iterative risk-allocation framework yields superior performance in complex environments, allowing multiple agents to find collision-free paths within the user-specified $\Delta$.
- Abstract(参考訳): 安全ナビゲーションは、特に複数のエージェントが、長い時間的地平線上で単に視覚的な入力を使用して調整する必要がある場合、危険な環境で運用する自律システムにとって不可欠である。
従来の計画手法は、長距離タスクを解くのに優れているが、事前定義された距離メトリクスに依存している。一方、安全な強化学習(RL)は高次元入力を用いて複雑な振る舞いを学習できるが、多エージェントでゴール条件付きシナリオでは苦労する。
最近の研究は、ゴール条件付きRL(GCRL)を活用してバッファ状態の再生から中間グラフを構築し、安全でないエッジを刈り取り、マルチエージェントパス計画にConflict-Based Search(CBS)を使用した。
このグラフ解析手法は有効ではあるが、過度に保守的であり、高リスク領域を横断するミッションを先送りすることでミッション効率を制限できる。
この制限に対処するために、RB-CBSを提案する。RB-CBSは、安全とスピードを柔軟にトレードオフするために、エージェント間でユーザー特定リスクバウンド(\Delta$)を動的に割り当て、調整するCBSの新しい拡張である。
改善されたプランナーは、各エージェントが全体の安全制約を尊重しつつ、より効率的なナビゲーションを可能にするローカルリスク予算(\delta$)を受け取ることを保証します。
実験の結果、この反復的リスク割り当てフレームワークは複雑な環境において優れた性能を示し、複数のエージェントがユーザの指定した$\Delta$内で衝突のない経路を見つけることができることがわかった。
関連論文リスト
- Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation [96.88162755522342]
視覚と言語 シーンナビゲーションは、人間のAIを具現化する基本的な能力である。
DACoは,グローバルな議論を現地の基盤から切り離す,計画的な非結合型アーキテクチャである。
グローバルな推論を局所的な行動から遠ざけることで、DACoは認知的過負荷を軽減し、長期的安定性を向上させる。
論文 参考訳(メタデータ) (2026-02-21T19:19:55Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - Heterogeneous Multi-Expert Reinforcement Learning for Long-Horizon Multi-Goal Tasks in Autonomous Forklifts [5.215925647203835]
本稿では,自律フォークリフトに適した異種多目的強化学習(HMER)フレームワークを提案する。
HMERは、長期のタスクをセマンティックタスクプランナーによって制御される特殊なサブポリスに分解する。
本手法は,タスク成功率94.2%(ベースラインの62.5%)を達成し,動作時間を21.4%削減し,配置誤差を1.5cm以内で維持する。
論文 参考訳(メタデータ) (2026-01-12T08:27:24Z) - Hybrid Motion Planning with Deep Reinforcement Learning for Mobile Robot Navigation [0.0]
深部強化学習(HMP-DRL)によるハイブリッド運動計画
状態空間と報酬関数の両方に符号化されたチェックポイントのシーケンスを通じて、局所DRLポリシーに統合されたパスを生成するグラフベースのグローバルプランナを提案する。
社会的コンプライアンスを確保するため、地域プランナーは、周辺エージェントのセマンティックタイプに基づいて、安全マージンと罰則を動的に調整するエンティティ対応報酬構造を採用する。
論文 参考訳(メタデータ) (2025-12-31T05:58:57Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - Designing Control Barrier Function via Probabilistic Enumeration for Safe Reinforcement Learning Navigation [55.02966123945644]
本稿では,ニューラルネットワーク検証技術を利用して制御障壁関数(CBF)とポリシー修正機構の設計を行う階層型制御フレームワークを提案する。
提案手法は,安全なCBFベースの制御層を構築するために使用される,安全でない操作領域を特定するための確率的列挙に依存する。
これらの実験は、効率的なナビゲーション動作を維持しながら、安全でない動作を補正する提案手法の能力を実証するものである。
論文 参考訳(メタデータ) (2025-04-30T13:47:25Z) - Safe Multi-Agent Navigation guided by Goal-Conditioned Safe Reinforcement Learning [2.082168997977094]
計画と安全RLの双方の長所を統合する新しい手法を提案する。
提案手法は安全でないエッジを抽出し,エージェントが目標に到達するまで追従するウェイポイントベースのプランを生成する。
特に、Conflict-Based Search (CBS)を活用して、複数のエージェントのためのウェイポイントベースのプランを作成し、拡張された地平線上の安全なナビゲーションを可能にします。
論文 参考訳(メタデータ) (2025-02-25T03:38:52Z) - Integrated Sensing and Communications for Low-Altitude Economy: A Deep Reinforcement Learning Approach [20.36806314683902]
低高度経済(LAE)のための統合センシング・通信(ISAC)システムについて検討する。
所定の飛行期間における通信総和レートは、GBSとUAVの軌道でのビームフォーミングを共同最適化することにより最大化する。
本稿では, 深部強化学習(DRL)技術を活用して, 深部LAE-ISAC(Deep LAE-ISAC)と呼ばれる新しいLEE指向ISAC方式を提案する。
論文 参考訳(メタデータ) (2024-12-05T11:12:46Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。