論文の概要: Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games
- arxiv url: http://arxiv.org/abs/2403.10794v1
- Date: Sat, 16 Mar 2024 03:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:45:00.595363
- Title: Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games
- Title(参考訳): 対戦型マルチエージェントゲームにおける拡散強化学習階層型モーションプランニング
- Authors: Zixuan Wu, Sean Ye, Manisha Natarajan, Matthew C. Gombolay,
- Abstract要約: 部分的に観察可能なマルチエージェント追従ゲーム(PEG)における回避目標の動作計画タスクに焦点をあてる。
これらの追尾回避問題は、捜索・救助活動や監視ロボットなど、様々な応用に関係している。
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 6.532258098619471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning- (RL-)based motion planning has recently shown the potential to outperform traditional approaches from autonomous navigation to robot manipulation. In this work, we focus on a motion planning task for an evasive target in a partially observable multi-agent adversarial pursuit-evasion games (PEG). These pursuit-evasion problems are relevant to various applications, such as search and rescue operations and surveillance robots, where robots must effectively plan their actions to gather intelligence or accomplish mission tasks while avoiding detection or capture themselves. We propose a hierarchical architecture that integrates a high-level diffusion model to plan global paths responsive to environment data while a low-level RL algorithm reasons about evasive versus global path-following behavior. Our approach outperforms baselines by 51.2% by leveraging the diffusion model to guide the RL algorithm for more efficient exploration and improves the explanability and predictability.
- Abstract(参考訳): 強化学習(RL-)に基づくモーションプランニングは、最近、自律ナビゲーションからロボット操作まで、従来のアプローチより優れている可能性が示されている。
本研究では,部分的に観察可能なマルチエージェント追従ゲーム(PEG)において,回避対象の動作計画タスクに焦点を当てた。
これらの追尾回避問題は、捜索・救助活動や監視ロボットなど、さまざまな応用に関係しており、ロボットは、検出や捕獲を避けながら、知性を集め、任務を遂行するために、効果的に行動計画する必要がある。
本稿では,環境データに応答するグローバルパスを計画するために,高レベルの拡散モデルを統合する階層型アーキテクチャを提案する。
提案手法は拡散モデルを利用してRLアルゴリズムをより効率的に探索し,説明可能性と予測可能性を向上させることにより,ベースラインを51.2%向上させる。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - LDP: A Local Diffusion Planner for Efficient Robot Navigation and Collision Avoidance [16.81917489473445]
条件拡散モデルは,ロボットポリシーを学習するための効率的なツールとして実証されてきた。
ダイナミックな障害物と迷路のような構造を特徴とする現実シナリオの複雑な性質は、ロボットの局所的なナビゲーション決定の複雑さを浮き彫りにする。
論文 参考訳(メタデータ) (2024-07-02T04:53:35Z) - Improving Generalization in Aerial and Terrestrial Mobile Robots Control Through Delayed Policy Learning [0.19638749905454383]
深層強化学習(Dreep Reinforcement Learning, DRL)は, 運動制御と意思決定の促進に向けた, 有望なアプローチとして登場した。
本稿では,DPU(Delayed Policy Updates)技術が新たな状況への一般化を促進する効果について考察する。
論文 参考訳(メタデータ) (2024-06-04T04:16:38Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Mission-driven Exploration for Accelerated Deep Reinforcement Learning
with Temporal Logic Task Specifications [11.812602599752294]
未知の構造を持つ環境で動作している未知のダイナミクスを持つロボットについて考察する。
我々の目標は、オートマトン符号化されたタスクを満足する確率を最大化する制御ポリシーを合成することである。
そこで本研究では,制御ポリシーを類似手法と比較して顕著に高速に学習できるDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Distributed multi-agent target search and tracking with Gaussian process
and reinforcement learning [26.499110405106812]
分散プロセスに基づくターゲットマップ構築によるマルチエージェント強化学習手法を提案する。
シミュレーションにおける訓練された方針の性能と伝達性を評価し, 小型無人航空機の群集上での手法を実証した。
論文 参考訳(メタデータ) (2023-08-29T01:53:14Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Mobile Robot Path Planning in Dynamic Environments through Globally
Guided Reinforcement Learning [12.813442161633116]
本稿では,多ボット計画問題の解決を目的として,グローバルガイド型学習強化手法(G2RL)を提案する。
G2RLは任意の環境に一般化する新しい経路報酬構造を組み込んでいる。
提案手法は,異なるマップタイプ,障害物密度,ロボット数にまたがって評価する。
論文 参考訳(メタデータ) (2020-05-11T20:42:29Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。