論文の概要: Sample Efficient Training in Multi-Agent Adversarial Games with Limited
Teammate Communication
- arxiv url: http://arxiv.org/abs/2011.00424v1
- Date: Sun, 1 Nov 2020 04:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 23:55:26.207371
- Title: Sample Efficient Training in Multi-Agent Adversarial Games with Limited
Teammate Communication
- Title(参考訳): チームメイト限定通信による多エージェント対戦ゲームにおけるサンプル効率トレーニング
- Authors: Hardik Meisheri, Harshad Khadilkar
- Abstract要約: 我々は,NeurIPS 2019に関連する競争環境であるPommerman TeamRadioのソリューションについて説明する。
本アルゴリズムの定義特徴は, 計算予算の制限内で, サンプル効率を達成することである。
提案手法は,50万試合のトレーニングにおいて,他の文献研究よりもはるかに高速に,競争性能を達成可能であることを示す。
- 参考スコア(独自算出の注目度): 4.924126492174801
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We describe our solution approach for Pommerman TeamRadio, a competition
environment associated with NeurIPS 2019. The defining feature of our algorithm
is achieving sample efficiency within a restrictive computational budget while
beating the previous years learning agents. The proposed algorithm (i) uses
imitation learning to seed the policy, (ii) explicitly defines the
communication protocol between the two teammates, (iii) shapes the reward to
provide a richer feedback signal to each agent during training and (iv) uses
masking for catastrophic bad actions. We describe extensive tests against
baselines, including those from the 2019 competition leaderboard, and also a
specific investigation of the learned policy and the effect of each
modification on performance. We show that the proposed approach is able to
achieve competitive performance within half a million games of training,
significantly faster than other studies in the literature.
- Abstract(参考訳): 我々は,NeurIPS 2019に関連する競争環境であるPommerman TeamRadioに対するソリューションアプローチについて説明する。
このアルゴリズムの特徴は, 従来の学習エージェントを上回りながら, 限定的な計算予算内でサンプル効率を達成することである。
提案アルゴリズム
(i)模擬学習を用いて政策をシードする。
(ii)2人のチームメイト間の通信プロトコルを明確に定義する。
(iii)訓練中、各エージェントによりリッチなフィードバック信号を提供するための報酬を形作る。
(iv)破滅的な悪行にマスキングを用いる。
2019年のコンペティションリーダーボードのベースラインに対する広範なテストや、学習したポリシーと各修正がパフォーマンスに与える影響に関する具体的な調査について述べます。
提案手法は,50万試合のトレーニングにおいて,他の文献研究よりもはるかに高速に,競争性能を達成可能であることを示す。
関連論文リスト
- Adversarial Imitation Learning via Boosting [14.083277701915119]
逆模倣学習(AIL)は、様々な模倣学習(IL)アプリケーションにまたがる支配的なフレームワークとして注目されている。
本研究では,ブースティングの枠組みを用いて,新しいAILアルゴリズムを開発した。
我々は,DeepMindから,コントローラの状態ベースと画素ベースの環境の両方でアルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-04-12T14:53:36Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Rethinking Population-assisted Off-policy Reinforcement Learning [7.837628433605179]
オフ政治強化学習アルゴリズムは、限られた探索のために局所最適への収束に苦慮する。
人口ベースのアルゴリズムは自然探索戦略を提供するが、ブラックボックス演算子は非効率である。
最近のアルゴリズムはこれら2つの手法を統合し、共有再生バッファを介してそれらを接続している。
論文 参考訳(メタデータ) (2023-05-04T15:53:00Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - DPP-based Client Selection for Federated Learning with Non-IID Data [97.1195165400568]
本稿では,統合学習(FL)のコミュニケーションボトルネックに対処するクライアント選択(CS)手法を提案する。
まず、FLにおけるCSの効果を分析し、各学習ラウンドにおけるトレーニングデータセットの多様化に参加者を適切に選択することで、FLトレーニングを加速させることができることを示す。
我々は、データプロファイリングと決定点プロセス(DPP)サンプリング技術を活用し、DPPに基づく参加者選択(FL-DP$3$S)によるフェデレートラーニング(Federated Learning)と呼ばれるアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-03-30T13:14:54Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Interactive Learning from Activity Description [11.068923430996575]
本稿では,要求充足エージェントを言語的に記述することで,要求充足エージェントの訓練を可能にする対話型学習プロトコルを提案する。
我々のプロトコルは、模倣学習(IL)や強化学習(RL)といった従来のアルゴリズムと相補的な優位性を提供する対話型学習アルゴリズムの新しいファミリーを生み出している。
我々は,このプロトコルを実践的に実装し,純粋に言語記述フィードバックを用いた2つの要求充足問題をエージェントに訓練するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-02-13T22:51:11Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。