論文の概要: "Other-Play" for Zero-Shot Coordination
- arxiv url: http://arxiv.org/abs/2003.02979v3
- Date: Wed, 12 May 2021 05:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:19:09.833970
- Title: "Other-Play" for Zero-Shot Coordination
- Title(参考訳): ゼロショットコーディネーションのための「other-play」
- Authors: Hengyuan Hu, Adam Lerer, Alex Peysakhovich, Jakob Foerster
- Abstract要約: その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
- 参考スコア(独自算出の注目度): 21.607428852157273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of zero-shot coordination - constructing AI agents
that can coordinate with novel partners they have not seen before (e.g.
humans). Standard Multi-Agent Reinforcement Learning (MARL) methods typically
focus on the self-play (SP) setting where agents construct strategies by
playing the game with themselves repeatedly. Unfortunately, applying SP naively
to the zero-shot coordination problem can produce agents that establish highly
specialized conventions that do not carry over to novel partners they have not
been trained with. We introduce a novel learning algorithm called other-play
(OP), that enhances self-play by looking for more robust strategies, exploiting
the presence of known symmetries in the underlying problem. We characterize OP
theoretically as well as experimentally. We study the cooperative card game
Hanabi and show that OP agents achieve higher scores when paired with
independently trained agents. In preliminary results we also show that our OP
agents obtains higher average scores when paired with human players, compared
to state-of-the-art SP agents.
- Abstract(参考訳): ゼロショット調整の問題は、これまで見たことのない新しいパートナー(例えば人間)と協調できるAIエージェントを構築することである。
MARL(Standard Multi-Agent Reinforcement Learning)は、エージェントがゲームを繰り返しプレイすることで戦略を構築するセルフプレイ(SP)設定に焦点を当てる手法である。
残念ながら、SPをゼロショット調整問題に適用することは、訓練を受けていない新規パートナーに受け継がれない、高度に専門的な慣習を確立するエージェントを生み出すことができる。
我々は,より強固な戦略を追求し,基礎となる問題における既知の対称性を活用し,自己遊びを促進する,other-play(op)と呼ばれる新しい学習アルゴリズムを導入する。
OPは理論的にも実験的にも特徴付けられる。
協調カードゲーム「はなび」について検討し,個別に訓練したエージェントとペアを組むと高い得点が得られることを示した。
予備実験の結果,人間の選手とペアを組む場合,最先端のspエージェントに比べて高い平均スコアが得られることが分かった。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - K-level Reasoning for Zero-Shot Coordination in Hanabi [26.38814779896388]
我々は,ハナビにおいて,競争力のあるZSCとアドホックなチームプレイのパフォーマンスを得ることができることを示す。
また、最適な応答を伴う同期kレベルの推論という新しい手法も導入する。
論文 参考訳(メタデータ) (2022-07-14T18:53:34Z) - On-the-fly Strategy Adaptation for ad-hoc Agent Coordination [21.029009561094725]
協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
主な焦点は、セルフプレイパラダイムである。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:18:11Z) - Any-Play: An Intrinsic Augmentation for Zero-Shot Coordination [0.4153433779716327]
我々は、協調型AIを評価するための代替基準を定式化し、この基準を「アルゴリズム間クロスプレイ(inter-algorithm cross-play)」と呼ぶ。
このパラダイムでは,Other-Play や Off-Belief Learning といった,最先端の協調型AIアルゴリズムが低性能であることを示す。
本稿では,Any-Play学習のアルゴリズムをアルゴリズム間クロスプレイ設定に一般化するために,Any-Play学習の拡張を提案する。
論文 参考訳(メタデータ) (2022-01-28T21:43:58Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Generating and Adapting to Diverse Ad-Hoc Cooperation Agents in Hanabi [4.777698073163644]
ハナビでは、コーディネートされたプレイヤーのグループは、事前に確立された慣習を有効活用することができるが、アドホックな設定でプレーするには、前回のコーディネートなしでパートナーの戦略に適応する必要がある。
本稿では,この目的のために多様な個体群を生成するための,有望なアルゴリズムのクラスとして品質多様性アルゴリズムを提案する。
また,エージェントは訓練中に多様な集団の恩恵を受けることができ,エージェントが知覚する行動ニッチに適応するためのシンプルな「メタストラテジー」を実装することができると仮定した。
論文 参考訳(メタデータ) (2020-04-28T05:03:19Z) - Evaluating the Rainbow DQN Agent in Hanabi with Unseen Partners [4.4532936483984065]
ハナビ(英: Hanabi)は、AI技術の存在に挑戦する協調ゲームであり、他のプレイヤーの精神状態をモデル化し、その振る舞いを解釈し予測することに焦点を当てている。
本稿では,一般的なRainbowDQNアーキテクチャを用いたセルフプレイによりトレーニングされたエージェントが,トレーニング中に見られなかった単純なルールベースのエージェントとうまく連携できないことを示す。
論文 参考訳(メタデータ) (2020-04-28T04:24:44Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。