論文の概要: TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum
Learning
- arxiv url: http://arxiv.org/abs/2312.12255v1
- Date: Tue, 19 Dec 2023 15:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:02:11.518169
- Title: TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum
Learning
- Title(参考訳): 自動カリキュラム学習によるマルチエージェント追跡のためのタスクフレックスソルバ
- Authors: Jiayu Chen, Guosheng Li, Chao Yu, Xinyi Yang, Botian Xu, Huazhong
Yang, Yu Wang
- Abstract要約: 本稿では,障害のある限られた環境下で,遅い追従者が高速な避難者を捕まえるために協力するマルチエージェント追従の問題に対処する。
本アルゴリズムは,タスク成功率を評価し,カリキュラムアーカイブの維持に適度なタスクを選択するタスク評価器と,カリキュラムアーカイブからタスクをサンプリングし,ポリシー改善の最大化を図るタスクサンプリング器とから構成される。
- 参考スコア(独自算出の注目度): 16.76028762107313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of multi-agent pursuit, where slow pursuers
cooperate to capture fast evaders in a confined environment with obstacles.
Existing heuristic algorithms often lack expressive coordination strategies and
are highly sensitive to task conditions, requiring extensive hyperparameter
tuning. In contrast, reinforcement learning (RL) has been applied to this
problem and is capable of obtaining cooperative pursuit strategies. However,
RL-based methods face challenges in training for complex scenarios due to the
vast amount of training data and limited adaptability to varying task
conditions, such as different scene sizes, varying numbers and speeds of
obstacles, and flexible speed ratios of the evader to the pursuer. In this
work, we combine RL and curriculum learning to introduce a flexible solver for
multiagent pursuit problems, named TaskFlex Solver (TFS), which is capable of
solving multi-agent pursuit problems with diverse and dynamically changing task
conditions in both 2-dimensional and 3-dimensional scenarios. TFS utilizes a
curriculum learning method that constructs task distributions based on training
progress, enhancing training efficiency and final performance. Our algorithm
consists of two main components: the Task Evaluator, which evaluates task
success rates and selects tasks of moderate difficulty to maintain a curriculum
archive, and the Task Sampler, which constructs training distributions by
sampling tasks from the curriculum archive to maximize policy improvement.
Experiments show that TFS produces much stronger performance than baselines and
achieves close to 100% capture rates in both 2-dimensional and 3-dimensional
multi-agent pursuit problems with diverse and dynamically changing scenes. The
project website is at https://sites.google.com/view/tfs-2023.
- Abstract(参考訳): 本稿では,障害のある限られた環境下で,遅い追従者が高速避難者を捕まえるために協力するマルチエージェント追従の問題に対処する。
既存のヒューリスティックアルゴリズムは、しばしば表現的な調整戦略を欠き、タスク条件に非常に敏感であり、広範なハイパーパラメータチューニングを必要とする。
対照的に、この問題に強化学習(RL)を適用し、協調的追跡戦略を得ることができる。
しかし、RLベースの手法は、大量のトレーニングデータと、異なるシーンサイズ、障害物の数や速度、エスカレーターに対するフレキシブルな速度比など、様々なタスク条件への適応性に制限があるため、複雑なシナリオのトレーニングにおいて困難に直面している。
本研究では,rl とカリキュラム学習を組み合わせることで,マルチエージェント追従問題に対する柔軟な解法である taskflex solver (tfs) を導入する。
TFSは、トレーニングの進捗状況に基づいてタスク分布を構築し、トレーニング効率と最終的なパフォーマンスを向上させるカリキュラム学習手法を使用している。
提案手法は,課題成功率を評価し,カリキュラムアーカイブを維持するのに適度な難易度を持つタスクを選択するタスク評価器と,カリキュラムアーカイブからタスクをサンプリングしてトレーニング分布を構築するタスクサンプリング器の2つの主成分からなる。
実験により、tfsはベースラインよりもはるかに強力な性能を示し、2次元および3次元のマルチエージェント追従問題において、多様で動的に変化するシーンにおいて100%の捕獲率を達成した。
プロジェクトのwebサイトはhttps://sites.google.com/view/tfs-2023にある。
関連論文リスト
- Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning [16.761470423715338]
マルチUAV追跡回避は、UAV群知能にとって重要な課題である。
本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。
我々は、2段階の報酬改善を通じて実現可能な政策を導出し、ゼロショット方式で実四重項にポリシーを展開する。
論文 参考訳(メタデータ) (2024-09-24T08:40:04Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。
本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-18T13:26:40Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Decentralized Reinforcement Learning for Multi-Target Search and
Detection by a Team of Drones [12.055303570215335]
対象の探索と検出は、カバレッジ、監視、探索、観測、追跡回避など、さまざまな決定問題を含む。
我々は,未知の領域における静的な目標のセットを特定するために,航空機群(ドローン)を協調させるマルチエージェント深部強化学習法(MADRL)を開発した。
論文 参考訳(メタデータ) (2021-03-17T09:04:47Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。