論文の概要: Population-based Evaluation in Repeated Rock-Paper-Scissors as a
Benchmark for Multiagent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.03196v1
- Date: Thu, 2 Mar 2023 15:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:40:03.519247
- Title: Population-based Evaluation in Repeated Rock-Paper-Scissors as a
Benchmark for Multiagent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のベンチマークとしての繰り返し岩盤の集団評価
- Authors: Marc Lanctot, John Schultz, Neil Burch, Max Olan Smith, Daniel Hennes,
Thomas Anthony, Julien Perolat
- Abstract要約: 簡単なゲームRock, Paper, Scissorsの繰り返しプレイに基づくマルチエージェント学習のためのベンチマークを提案する。
平均リターンとエクスプロイラビリティの両方に基づいて,エージェントの品質を測定するための指標について述べる。
- 参考スコア(独自算出の注目度): 16.228729713191857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Progress in fields of machine learning and adversarial planning has benefited
significantly from benchmark domains, from checkers and the classic UCI data
sets to Go and Diplomacy. In sequential decision-making, agent evaluation has
largely been restricted to few interactions against experts, with the aim to
reach some desired level of performance (e.g. beating a human professional
player). We propose a benchmark for multiagent learning based on repeated play
of the simple game Rock, Paper, Scissors along with a population of forty-three
tournament entries, some of which are intentionally sub-optimal. We describe
metrics to measure the quality of agents based both on average returns and
exploitability. We then show that several RL, online learning, and language
model approaches can learn good counter-strategies and generalize well, but
ultimately lose to the top-performing bots, creating an opportunity for
research in multiagent learning.
- Abstract(参考訳): 機械学習と敵対的計画の分野の進歩は、チェッカーや古典的なUCIデータセットからGoと外交まで、ベンチマークドメインから大きな恩恵を受けている。
シーケンシャルな意思決定において、エージェント評価は専門家との相互作用がほとんどなく、望ましいレベルのパフォーマンス(例えば、人間のプロ選手を打つなど)を達成することを目的としている。
本稿では,単純なゲームロック,紙,ハサミの繰り返しプレイと,43名のトーナメント出場者によるマルチエージェント学習のためのベンチマークを提案する。
平均リターンとエクスプロイラビリティの両方に基づいてエージェントの品質を測定するメトリクスについて述べる。
そして、いくつかのRL、オンライン学習、言語モデルアプローチが優れた反ストラテジーを学習し、うまく一般化できることを示し、最終的にはトップパフォーマンスのボットに敗れ、マルチエージェント学習の研究機会を生み出します。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach [11.740631954398292]
Pommermanはマルチエージェントトレーニングのための理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
論文 参考訳(メタデータ) (2024-06-30T11:14:29Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - An Empirical Study on Google Research Football Multi-agent Scenarios [30.926070192524193]
トレーニングフレームワークLight-MALibをオープンソースとして公開しています。
我々は、人口ベースのトレーニングで強力なサッカーAIを構築するためのガイダンスを提供し、ベンチマークのための様々な事前訓練されたポリシーをリリースする。
論文 参考訳(メタデータ) (2023-05-16T14:18:53Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文 参考訳(メタデータ) (2021-08-30T04:30:53Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。