論文の概要: TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum
Learning
- arxiv url: http://arxiv.org/abs/2312.12255v1
- Date: Tue, 19 Dec 2023 15:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:02:11.518169
- Title: TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum
Learning
- Title(参考訳): 自動カリキュラム学習によるマルチエージェント追跡のためのタスクフレックスソルバ
- Authors: Jiayu Chen, Guosheng Li, Chao Yu, Xinyi Yang, Botian Xu, Huazhong
Yang, Yu Wang
- Abstract要約: 本稿では,障害のある限られた環境下で,遅い追従者が高速な避難者を捕まえるために協力するマルチエージェント追従の問題に対処する。
本アルゴリズムは,タスク成功率を評価し,カリキュラムアーカイブの維持に適度なタスクを選択するタスク評価器と,カリキュラムアーカイブからタスクをサンプリングし,ポリシー改善の最大化を図るタスクサンプリング器とから構成される。
- 参考スコア(独自算出の注目度): 16.76028762107313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of multi-agent pursuit, where slow pursuers
cooperate to capture fast evaders in a confined environment with obstacles.
Existing heuristic algorithms often lack expressive coordination strategies and
are highly sensitive to task conditions, requiring extensive hyperparameter
tuning. In contrast, reinforcement learning (RL) has been applied to this
problem and is capable of obtaining cooperative pursuit strategies. However,
RL-based methods face challenges in training for complex scenarios due to the
vast amount of training data and limited adaptability to varying task
conditions, such as different scene sizes, varying numbers and speeds of
obstacles, and flexible speed ratios of the evader to the pursuer. In this
work, we combine RL and curriculum learning to introduce a flexible solver for
multiagent pursuit problems, named TaskFlex Solver (TFS), which is capable of
solving multi-agent pursuit problems with diverse and dynamically changing task
conditions in both 2-dimensional and 3-dimensional scenarios. TFS utilizes a
curriculum learning method that constructs task distributions based on training
progress, enhancing training efficiency and final performance. Our algorithm
consists of two main components: the Task Evaluator, which evaluates task
success rates and selects tasks of moderate difficulty to maintain a curriculum
archive, and the Task Sampler, which constructs training distributions by
sampling tasks from the curriculum archive to maximize policy improvement.
Experiments show that TFS produces much stronger performance than baselines and
achieves close to 100% capture rates in both 2-dimensional and 3-dimensional
multi-agent pursuit problems with diverse and dynamically changing scenes. The
project website is at https://sites.google.com/view/tfs-2023.
- Abstract(参考訳): 本稿では,障害のある限られた環境下で,遅い追従者が高速避難者を捕まえるために協力するマルチエージェント追従の問題に対処する。
既存のヒューリスティックアルゴリズムは、しばしば表現的な調整戦略を欠き、タスク条件に非常に敏感であり、広範なハイパーパラメータチューニングを必要とする。
対照的に、この問題に強化学習(RL)を適用し、協調的追跡戦略を得ることができる。
しかし、RLベースの手法は、大量のトレーニングデータと、異なるシーンサイズ、障害物の数や速度、エスカレーターに対するフレキシブルな速度比など、様々なタスク条件への適応性に制限があるため、複雑なシナリオのトレーニングにおいて困難に直面している。
本研究では,rl とカリキュラム学習を組み合わせることで,マルチエージェント追従問題に対する柔軟な解法である taskflex solver (tfs) を導入する。
TFSは、トレーニングの進捗状況に基づいてタスク分布を構築し、トレーニング効率と最終的なパフォーマンスを向上させるカリキュラム学習手法を使用している。
提案手法は,課題成功率を評価し,カリキュラムアーカイブを維持するのに適度な難易度を持つタスクを選択するタスク評価器と,カリキュラムアーカイブからタスクをサンプリングしてトレーニング分布を構築するタスクサンプリング器の2つの主成分からなる。
実験により、tfsはベースラインよりもはるかに強力な性能を示し、2次元および3次元のマルチエージェント追従問題において、多様で動的に変化するシーンにおいて100%の捕獲率を達成した。
プロジェクトのwebサイトはhttps://sites.google.com/view/tfs-2023にある。
関連論文リスト
- Robust Subtask Learning for Compositional Generalization [20.54144051436337]
我々は、どんなタスクでも実行できるように、サブタスクポリシーをトレーニングする問題に焦点を合わせます。
我々は、平均的なケースのパフォーマンスとは対照的に、すべてのタスクで最悪のケースのパフォーマンスを最大化することを目指している。
論文 参考訳(メタデータ) (2023-02-06T18:19:25Z) - Digital Twin-Assisted Efficient Reinforcement Learning for Edge Task
Scheduling [10.777592783012702]
本稿では,RLの性能と収束性を改善するために,Digital Twin(DT)を用いたRLベースのタスクスケジューリング手法を提案する。
DT支援非同期Qラーニング(DTAQL)とDT支援Qラーニング(DTEQL)という2つのアルゴリズムがタスクスケジューリング決定を行うように設計されている。
論文 参考訳(メタデータ) (2022-08-02T23:26:08Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Efficiently Identifying Task Groupings for Multi-Task Learning [55.80489920205404]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
マルチタスク学習モデルにおいて、どのタスクを一緒にトレーニングすべきかを選択するアプローチを提案する。
本手法は,全タスクを協調学習し,タスクの勾配が他のタスクの損失に影響を及ぼす影響を定量化する。
論文 参考訳(メタデータ) (2021-09-10T02:01:43Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z) - Dynamic Task Weighting Methods for Multi-task Networks in Autonomous
Driving Systems [10.625400639764734]
ディープマルチタスクネットワークは、自動運転システムに特に関心がある。
進化的メタラーニングとタスクベースの選択的バックプロパゲーションを組み合わせた新しい手法を提案する。
提案手法は,2タスクアプリケーションにおいて,最先端の手法よりも有意差がある。
論文 参考訳(メタデータ) (2020-01-07T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。