論文の概要: Generating Teammates for Training Robust Ad Hoc Teamwork Agents via
Best-Response Diversity
- arxiv url: http://arxiv.org/abs/2207.14138v3
- Date: Wed, 24 May 2023 13:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 03:22:41.857020
- Title: Generating Teammates for Training Robust Ad Hoc Teamwork Agents via
Best-Response Diversity
- Title(参考訳): ベストレスポンシブダイバーシティによるロバストなアドホックチームワークエージェントのトレーニング用チームメイトの作成
- Authors: Arrasy Rahman, Elliot Fosong, Ignacio Carlucho, Stefano V. Albrecht
- Abstract要約: アドホックチームワーク(Ad hoc teamwork、AHT)は、未知のチームメイトと効果的に協力する堅牢な学習エージェントを設計する挑戦である。
初期のアプローチは、手作りのチームメイトポリシーの多様なセットで学習者をトレーニングすることで、AHTの課題に対処する。
近年,情報理論の多様性指標を最適化することにより,チームメイトポリシーを用いて学習者の堅牢性を向上させる手法が提案されている。
- 参考スコア(独自算出の注目度): 6.940758395823777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ad hoc teamwork (AHT) is the challenge of designing a robust learner agent
that effectively collaborates with unknown teammates without prior coordination
mechanisms. Early approaches address the AHT challenge by training the learner
with a diverse set of handcrafted teammate policies, usually designed based on
an expert's domain knowledge about the policies the learner may encounter.
However, implementing teammate policies for training based on domain knowledge
is not always feasible. In such cases, recent approaches attempted to improve
the robustness of the learner by training it with teammate policies generated
by optimising information-theoretic diversity metrics. The problem with
optimising existing information-theoretic diversity metrics for teammate policy
generation is the emergence of superficially different teammates. When used for
AHT training, superficially different teammate behaviours may not improve a
learner's robustness during collaboration with unknown teammates. In this
paper, we present an automated teammate policy generation method optimising the
Best-Response Diversity (BRDiv) metric, which measures diversity based on the
compatibility of teammate policies in terms of returns. We evaluate our
approach in environments with multiple valid coordination strategies, comparing
against methods optimising information-theoretic diversity metrics and an
ablation not optimising any diversity metric. Our experiments indicate that
optimising BRDiv yields a diverse set of training teammate policies that
improve the learner's performance relative to previous teammate generation
approaches when collaborating with near-optimal previously unseen teammate
policies.
- Abstract(参考訳): アドホックチームワーク(Ad hoc teamwork, AHT)は、事前調整機構なしで、未知のチームメイトと効果的に協力する堅牢な学習エージェントを設計する挑戦である。
初期のアプローチは、学習者に様々な手作りのチームメイトポリシーを訓練することでahtチャレンジに対処し、通常、学習者が遭遇する可能性のあるポリシーに関する専門家のドメイン知識に基づいて設計される。
しかし、ドメイン知識に基づいたトレーニングのためのチームメイトポリシーを実装することは、必ずしも不可能ではない。
このような場合、近年のアプローチでは、情報理論の多様性の指標を最適化することで、チームメイトポリシーで学習者の堅牢性を向上させることを試みた。
チームメイトポリシー生成のために既存の情報理論の多様性メトリクスを最適化する際の問題は、表面的に異なるチームメイトの出現である。
AHTトレーニングに使用する場合、表面的には異なるチームメイト動作は、未知のチームメイトとのコラボレーション中に学習者の堅牢性を改善することができない。
本稿では,チームメート政策の適合性に基づく多様性を測定するための最良対応多様性(brdiv)指標を最適化する,チームメートポリシー自動生成手法を提案する。
我々は,情報理論の多様性指標を最適化する手法と,多様性指標を最適化しないアブレーションを比較し,複数の有効な調整戦略を持つ環境におけるアプローチを評価する。
実験の結果,BRDiv の最適化は,従来のチームメイト生成手法と比較して学習者のパフォーマンスを向上させるための多種多様なチームメイトポリシーが得られた。
関連論文リスト
- Online Policy Distillation with Decision-Attention [23.807761525617384]
政策蒸留(PD)は、深い強化学習タスクを改善する効果的な方法となっている。
同一環境から多様な知識を学習できる異なる政策間の知識伝達について検討する。
意思決定を伴うオンライン政策蒸留(OPD)を提案する。
論文 参考訳(メタデータ) (2024-06-08T14:40:53Z) - Symmetry-Breaking Augmentations for Ad Hoc Teamwork [10.014956508924842]
多くのコラボレーティブな設定では、人工知能(AI)エージェントは未知または以前は観測されていなかった戦略を使用する新しいチームメイトに適応できなければならない。
我々は,SBA(Symsymmetric-breaking Augmentation)を導入し,SBA(Symsymmetric-Flipping Operation)を適用して,チームメイトの行動の多様性を高める。
実験的な2つの設定でこれを実証し,従来のアドホックチームワークによりカードゲーム「はなび」におけるアプローチが改善したことを示す。
論文 参考訳(メタデータ) (2024-02-15T14:49:28Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Policy Diversity for Cooperative Agents [8.689289576285095]
マルチエージェント強化学習は、タスクを完了するための最適なチーム協調政策を見つけることを目的としている。
協調には複数の異なる方法があり、通常はドメインの専門家が非常に必要とします。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
論文 参考訳(メタデータ) (2023-08-28T05:23:16Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Minimum Coverage Sets for Training Robust Ad Hoc Teamwork Agents [39.19326531319873]
既存のAd Hoc Teamwork(AHT)メソッドは、さまざまなチームメイトポリシーを持つエージェントをトレーニングすることで、この問題に対処する。
我々は、AHTトレーニングに使用されるチームメイトポリシーのセットを生成するL-BRDivアルゴリズムを導入し、エージェントがMCSのポリシーをエミュレートすることを奨励する。
実験により,L-BRDivは2人共役の幅広い問題において,最先端の手法よりも堅牢なAHTエージェントを生成することを示した。
論文 参考訳(メタデータ) (2023-08-18T14:45:22Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。