Fugu-MT 論文翻訳(概要): TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum Learning

論文の概要: TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum Learning

arxiv url: http://arxiv.org/abs/2312.12255v1
Date: Tue, 19 Dec 2023 15:39:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 15:02:11.518169
Title: TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum Learning
Title（参考訳）: 自動カリキュラム学習によるマルチエージェント追跡のためのタスクフレックスソルバ
Authors: Jiayu Chen, Guosheng Li, Chao Yu, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang
Abstract要約: 本稿では,障害のある限られた環境下で,遅い追従者が高速な避難者を捕まえるために協力するマルチエージェント追従の問題に対処する。本アルゴリズムは,タスク成功率を評価し,カリキュラムアーカイブの維持に適度なタスクを選択するタスク評価器と,カリキュラムアーカイブからタスクをサンプリングし,ポリシー改善の最大化を図るタスクサンプリング器とから構成される。
参考スコア（独自算出の注目度）: 16.76028762107313
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper addresses the problem of multi-agent pursuit, where slow pursuers cooperate to capture fast evaders in a confined environment with obstacles. Existing heuristic algorithms often lack expressive coordination strategies and are highly sensitive to task conditions, requiring extensive hyperparameter tuning. In contrast, reinforcement learning (RL) has been applied to this problem and is capable of obtaining cooperative pursuit strategies. However, RL-based methods face challenges in training for complex scenarios due to the vast amount of training data and limited adaptability to varying task conditions, such as different scene sizes, varying numbers and speeds of obstacles, and flexible speed ratios of the evader to the pursuer. In this work, we combine RL and curriculum learning to introduce a flexible solver for multiagent pursuit problems, named TaskFlex Solver (TFS), which is capable of solving multi-agent pursuit problems with diverse and dynamically changing task conditions in both 2-dimensional and 3-dimensional scenarios. TFS utilizes a curriculum learning method that constructs task distributions based on training progress, enhancing training efficiency and final performance. Our algorithm consists of two main components: the Task Evaluator, which evaluates task success rates and selects tasks of moderate difficulty to maintain a curriculum archive, and the Task Sampler, which constructs training distributions by sampling tasks from the curriculum archive to maximize policy improvement. Experiments show that TFS produces much stronger performance than baselines and achieves close to 100% capture rates in both 2-dimensional and 3-dimensional multi-agent pursuit problems with diverse and dynamically changing scenes. The project website is at https://sites.google.com/view/tfs-2023.
Abstract（参考訳）: 本稿では,障害のある限られた環境下で,遅い追従者が高速避難者を捕まえるために協力するマルチエージェント追従の問題に対処する。既存のヒューリスティックアルゴリズムは、しばしば表現的な調整戦略を欠き、タスク条件に非常に敏感であり、広範なハイパーパラメータチューニングを必要とする。対照的に、この問題に強化学習(RL)を適用し、協調的追跡戦略を得ることができる。しかし、RLベースの手法は、大量のトレーニングデータと、異なるシーンサイズ、障害物の数や速度、エスカレーターに対するフレキシブルな速度比など、様々なタスク条件への適応性に制限があるため、複雑なシナリオのトレーニングにおいて困難に直面している。本研究では,rl とカリキュラム学習を組み合わせることで,マルチエージェント追従問題に対する柔軟な解法である taskflex solver (tfs) を導入する。 TFSは、トレーニングの進捗状況に基づいてタスク分布を構築し、トレーニング効率と最終的なパフォーマンスを向上させるカリキュラム学習手法を使用している。提案手法は,課題成功率を評価し,カリキュラムアーカイブを維持するのに適度な難易度を持つタスクを選択するタスク評価器と,カリキュラムアーカイブからタスクをサンプリングしてトレーニング分布を構築するタスクサンプリング器の2つの主成分からなる。実験により、tfsはベースラインよりもはるかに強力な性能を示し、2次元および3次元のマルチエージェント追従問題において、多様で動的に変化するシーンにおいて100%の捕獲率を達成した。プロジェクトのwebサイトはhttps://sites.google.com/view/tfs-2023にある。

関連論文リスト

Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [56.47577824219207]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文参考訳（メタデータ） (2025-08-01T13:55:39Z)
Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles [0.9217021281095907]
マルチエージェント強化学習は、サンプル非効率で悪名高い。 GazeboのLRAUVのような高忠実度シミュレータは、リアルタイムのシングルロボットシミュレーションを100倍高速にする。本稿では,高忠実度シミュレーションをGPU加速環境へ伝達する反復蒸留法を提案する。
論文参考訳（メタデータ） (2025-05-13T04:42:30Z)
A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文参考訳（メタデータ） (2025-04-21T14:25:23Z)
RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation [9.25068777307471]
本稿では,乱雑な環境下でのアジャイルドローン飛行のための学習型ビジュアルプランナを紹介する。提案したプランナーは、ミリ秒で衝突のないウェイポイントを生成し、ドローンは、異なる知覚、マッピング、計画モジュールを構築することなく、複雑な環境でアジャイルな操作を実行できる。
論文参考訳（メタデータ） (2025-02-04T06:42:08Z)
Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning [16.761470423715338]
マルチUAV追跡回避は、UAV群知能にとって重要な課題である。本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。我々は、2段階の報酬改善を通じて実現可能な政策を導出し、ゼロショット方式で実四重項にポリシーを展開する。
論文参考訳（メタデータ） (2024-09-24T08:40:04Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-18T19:25:57Z)
Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文参考訳（メタデータ） (2023-11-22T01:06:45Z)
Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-09-18T13:26:40Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
Transferable Deep Reinforcement Learning Framework for Autonomous Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文参考訳（メタデータ） (2021-05-28T08:45:37Z)
Decentralized Reinforcement Learning for Multi-Target Search and Detection by a Team of Drones [12.055303570215335]
対象の探索と検出は、カバレッジ、監視、探索、観測、追跡回避など、さまざまな決定問題を含む。我々は,未知の領域における静的な目標のセットを特定するために,航空機群(ドローン)を協調させるマルチエージェント深部強化学習法(MADRL)を開発した。
論文参考訳（メタデータ） (2021-03-17T09:04:47Z)
Language-guided Navigation via Cross-Modal Grounding and Alternate Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。 VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文参考訳（メタデータ） (2020-11-22T09:13:46Z)
ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。 ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文参考訳（メタデータ） (2020-08-18T08:05:15Z)
Robust Reinforcement Learning via Adversarial training with Langevin Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-14T14:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。