論文の概要: Towards Robust Ad Hoc Teamwork Agents By Creating Diverse Training
Teammates
- arxiv url: http://arxiv.org/abs/2207.14138v1
- Date: Thu, 28 Jul 2022 14:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:05:35.759882
- Title: Towards Robust Ad Hoc Teamwork Agents By Creating Diverse Training
Teammates
- Title(参考訳): 多様なトレーニングチームメイトを創出するアドホックなチームワークエージェントを目指して
- Authors: Arrasy Rahman, Elliot Fosong, Ignacio Carlucho, Stefano V. Albrecht
- Abstract要約: アドホックチームワーク(Ad hoc teamwork, AHT)とは、事前に調整することなく、以前は目に見えないチームメイトと協力しなくてはならないエージェントを作成する問題である。
そこで本研究では,最適応答多様性指標の最大化に基づいて,多様なチームメイトタイプを検出する手法を提案する。
- 参考スコア(独自算出の注目度): 6.940758395823777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ad hoc teamwork (AHT) is the problem of creating an agent that must
collaborate with previously unseen teammates without prior coordination. Many
existing AHT methods can be categorised as type-based methods, which require a
set of predefined teammates for training. Designing teammate types for training
is a challenging issue that determines the generalisation performance of agents
when dealing with teammate types unseen during training. In this work, we
propose a method to discover diverse teammate types based on maximising best
response diversity metrics. We show that our proposed approach yields teammate
types that require a wider range of best responses from the learner during
collaboration, which potentially improves the robustness of a learner's
performance in AHT compared to alternative methods.
- Abstract(参考訳): アドホックチームワーク(ad hoc teamwork、aht)は、以前目にしたことのないチームメイトと事前の調整なしに協力しなければならないエージェントを作成する問題である。
多くの既存のAHTメソッドは、トレーニングのために事前に定義されたチームメイトセットを必要とするタイプベースのメソッドとして分類することができる。
トレーニング用にチームメイトタイプを設計することは、トレーニング中に見つからないチームメイトタイプを扱う場合、エージェントの一般化パフォーマンスを決定する難しい問題である。
そこで本研究では,最適な応答多様性指標の最大化に基づく,多様なチームメイトタイプを検出する手法を提案する。
提案手法は,コラボレーション中に学習者から,より広い範囲のベストレスポンスを必要とするチームメイトタイプを産出することを示し,学習者のパフォーマンスを代替手法と比較して改善する可能性を示唆する。
関連論文リスト
- Online Policy Distillation with Decision-Attention [23.807761525617384]
政策蒸留(PD)は、深い強化学習タスクを改善する効果的な方法となっている。
同一環境から多様な知識を学習できる異なる政策間の知識伝達について検討する。
意思決定を伴うオンライン政策蒸留(OPD)を提案する。
論文 参考訳(メタデータ) (2024-06-08T14:40:53Z) - Symmetry-Breaking Augmentations for Ad Hoc Teamwork [10.014956508924842]
多くのコラボレーティブな設定では、人工知能(AI)エージェントは未知または以前は観測されていなかった戦略を使用する新しいチームメイトに適応できなければならない。
我々は,SBA(Symsymmetric-breaking Augmentation)を導入し,SBA(Symsymmetric-Flipping Operation)を適用して,チームメイトの行動の多様性を高める。
実験的な2つの設定でこれを実証し,従来のアドホックチームワークによりカードゲーム「はなび」におけるアプローチが改善したことを示す。
論文 参考訳(メタデータ) (2024-02-15T14:49:28Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Policy Diversity for Cooperative Agents [8.689289576285095]
マルチエージェント強化学習は、タスクを完了するための最適なチーム協調政策を見つけることを目的としている。
協調には複数の異なる方法があり、通常はドメインの専門家が非常に必要とします。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
論文 参考訳(メタデータ) (2023-08-28T05:23:16Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Minimum Coverage Sets for Training Robust Ad Hoc Teamwork Agents [39.19326531319873]
既存のAd Hoc Teamwork(AHT)メソッドは、さまざまなチームメイトポリシーを持つエージェントをトレーニングすることで、この問題に対処する。
我々は、AHTトレーニングに使用されるチームメイトポリシーのセットを生成するL-BRDivアルゴリズムを導入し、エージェントがMCSのポリシーをエミュレートすることを奨励する。
実験により,L-BRDivは2人共役の幅広い問題において,最先端の手法よりも堅牢なAHTエージェントを生成することを示した。
論文 参考訳(メタデータ) (2023-08-18T14:45:22Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。