論文の概要: Path Planning through Multi-Agent Reinforcement Learning in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2511.15284v1
- Date: Wed, 19 Nov 2025 09:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.740095
- Title: Path Planning through Multi-Agent Reinforcement Learning in Dynamic Environments
- Title(参考訳): 動的環境におけるマルチエージェント強化学習による経路計画
- Authors: Jonas De Maeyer, Hossein Yarahmadi, Moharram Challenger,
- Abstract要約: 動的環境における経路計画のための拡張性のある地域対応強化学習フレームワークを提案する。
本手法は, 環境変化は動的ではあるが, しばしば境界領域内で局所化されるという観察に基づいている。
- 参考スコア(独自算出の注目度): 2.116865312302264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Path planning in dynamic environments is a fundamental challenge in intelligent transportation and robotics, where obstacles and conditions change over time, introducing uncertainty and requiring continuous adaptation. While existing approaches often assume complete environmental unpredictability or rely on global planners, these assumptions limit scalability and practical deployment in real-world settings. In this paper, we propose a scalable, region-aware reinforcement learning (RL) framework for path planning in dynamic environments. Our method builds on the observation that environmental changes, although dynamic, are often localized within bounded regions. To exploit this, we introduce a hierarchical decomposition of the environment and deploy distributed RL agents that adapt to changes locally. We further propose a retraining mechanism based on sub-environment success rates to determine when policy updates are necessary. Two training paradigms are explored: single-agent Q-learning and multi-agent federated Q-learning, where local Q-tables are aggregated periodically to accelerate the learning process. Unlike prior work, we evaluate our methods in more realistic settings, where multiple simultaneous obstacle changes and increasing difficulty levels are present. Results show that the federated variants consistently outperform their single-agent counterparts and closely approach the performance of A* Oracle while maintaining shorter adaptation times and robust scalability. Although initial training remains time-consuming in large environments, our decentralized framework eliminates the need for a global planner and lays the groundwork for future improvements using deep RL and flexible environment decomposition.
- Abstract(参考訳): 動的環境における経路計画は、知的輸送とロボット工学において、障害と条件が時間とともに変化し、不確実性を導入し、継続的な適応を必要とする、基本的な課題である。
既存のアプローチでは、完全な環境予測不可能を前提とするか、グローバルプランナーに依存していることが多いが、これらの仮定は、現実の環境でのスケーラビリティと実践的な展開を制限する。
本稿では,動的環境における経路計画のための拡張性のある地域対応強化学習(RL)フレームワークを提案する。
本手法は, 環境変化は動的ではあるが, しばしば境界領域内で局所化されるという観察に基づいている。
これを活用するために、環境の階層的な分解を導入し、ローカルに変化に対応する分散RLエージェントをデプロイする。
さらに,環境下の成功率に基づくリトレーニング機構を提案し,政策更新が必要かどうかを判断する。
単エージェントQ-ラーニングと多エージェント連合Q-ラーニングの2つの訓練パラダイムを探索し、局所的なQ-テーブルを定期的に集約して学習プロセスを加速させる。
従来とは違って,複数の同時障害が出現し,難易度が増大する,より現実的な環境下での手法の評価を行う。
その結果,連合型は単一エージェントよりも一貫して優れており,より短い適応時間と堅牢なスケーラビリティを維持しつつ,A* Oracleのパフォーマンスに近づいた。
大規模な環境では初期トレーニングは時間を要するが、分散化されたフレームワークはグローバルプランナーの必要性を排除し、より深いRLと柔軟な環境分解による将来の改善の基盤となる。
関連論文リスト
- Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Adaptive Approach to Enhance Machine Learning Scheduling Algorithms During Runtime Using Reinforcement Learning in Metascheduling Applications [0.0]
本稿では,メタスケジューラに組み込まれた適応型オンライン学習ユニットを提案する。
オンラインモードでは、強化学習は、新しいスケジューリングソリューションを継続的に探索し発見することで、重要な役割を果たす。
オンライン学習ユニット内にいくつかのRLモデルが実装され、それぞれがスケジューリングの特定の課題に対処するように設計された。
論文 参考訳(メタデータ) (2025-09-24T19:46:22Z) - DyPNIPP: Predicting Environment Dynamics for RL-based Robust Informative Path Planning [13.462524685985818]
DyPNIPPは、時間的環境を効果的に横断するために設計された堅牢なRLベースのIPPフレームワークである。
野火環境での実験では、DyPNIPPは既存のRLベースのIPPアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T17:07:26Z) - Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement
Learning in Mixed Dynamic Environments [30.407700996710023]
本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。
我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。
提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
論文 参考訳(メタデータ) (2020-07-30T20:14:42Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。