論文の概要: A New Formalism, Method and Open Issues for Zero-Shot Coordination
- arxiv url: http://arxiv.org/abs/2106.06613v1
- Date: Fri, 11 Jun 2021 21:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-20 02:40:34.283969
- Title: A New Formalism, Method and Open Issues for Zero-Shot Coordination
- Title(参考訳): ゼロショットコーディネーションの新しい形式主義, 方法, オープン問題
- Authors: Johannes Treutlein, Michael Dennis, Caspar Oesterheld, Jakob Foerster
- Abstract要約: マルチエージェント強化学習における新たなフロンティアとしてゼロショットコーディネートが提案されている。
ラベルフリーコーディネート問題に対する最適解ではないことを示す。
本稿では,LFC問題とLFCゲームにおける平衡に最適であることを示す。
- 参考スコア(独自算出の注目度): 4.2534846356464815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many coordination problems, independently reasoning humans are able to
discover mutually compatible policies. In contrast, independently trained
self-play policies are often mutually incompatible. Zero-shot coordination
(ZSC) has recently been proposed as a new frontier in multi-agent reinforcement
learning to address this fundamental issue. Prior work approaches the ZSC
problem by assuming players can agree on a shared learning algorithm but not on
labels for actions and observations, and proposes other-play as an optimal
solution. However, until now, this "label-free" problem has only been
informally defined. We formalize this setting as the label-free coordination
(LFC) problem by defining the label-free coordination game. We show that
other-play is not an optimal solution to the LFC problem as it fails to
consistently break ties between incompatible maximizers of the other-play
objective. We introduce an extension of the algorithm, other-play with
tie-breaking, and prove that it is optimal in the LFC problem and an
equilibrium in the LFC game. Since arbitrary tie-breaking is precisely what the
ZSC setting aims to prevent, we conclude that the LFC problem does not reflect
the aims of ZSC. To address this, we introduce an alternative informal
operationalization of ZSC as a starting point for future work.
- Abstract(参考訳): 多くの協調問題において、人間を独立に推論することは相互に互換性のあるポリシーを発見することができる。
対照的に、独立して訓練された自己再生ポリシーは、しばしば相互に相容れない。
ゼロショットコーディネート(ZSC)は、この根本的な問題に対処するためのマルチエージェント強化学習の新たなフロンティアとして提案されている。
事前の作業は、プレイヤーが共有学習アルゴリズムで合意できるが、行動や観察のラベルには同意できないと仮定して、ZSC問題にアプローチし、最適解として他のプレイを提案する。
しかし、これまでこの「ラベルフリー」問題は非公式に定義されただけである。
ラベルフリーコーディネーションゲームを定義することにより、ラベルフリーコーディネーション(LFC)問題としてこの設定を定式化する。
本研究は,LFC問題の最適解ではないことを示し,非互換な最大値間の関係を常に破ることに失敗する。
本稿では,lfc問題の最適解とlfcゲームにおける均衡を証明し,このアルゴリズムの拡張について述べる。
任意のタイブレーキングがZSCの設定の目的であるので、LFC問題はZSCの目的を反映していないと結論付ける。
そこで本稿では,今後の作業の出発点として,ZSCの非公式運用を導入する。
関連論文リスト
- Noisy Zero-Shot Coordination: Breaking The Common Knowledge Assumption In Zero-Shot Coordination Games [18.390017115631412]
ゼロショットコーディネート (ZSC) は、新規パートナーと協調する強化学習 (RL) エージェントの研究に人気がある。
そこで本研究では,NZSC問題をZSC問題に還元する手法として,DEC-POMDPを基本構造とする拡張状態空間を持つメタデック-POMDPを設計する手法を提案する。
NZSCトレーニングでは、協調の(実際に)問題設定が一般的ではない場合でも、RLエージェントが新規パートナーとうまく協調するように訓練できることが示される。
論文 参考訳(メタデータ) (2024-11-07T18:50:14Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Safe Subgame Resolving for Extensive Form Correlated Equilibrium [47.155175336085364]
相関平衡(Correlated Equilibrium)は、ナッシュ平衡(NE)よりも一般的な解概念であり、社会福祉の改善につながる。
テキストサブゲーム解決は,ゼロサムゲームにおけるNEの発見に極めて成功した手法であり,一般サム EFCE の解法である。
サブゲーム解決は、テキストトン方式で相関計画を洗練させる: ゲーム全体を前もって解決するのではなく、実際のプレイで到達したサブゲームにおける戦略のためにのみ解決する。
論文 参考訳(メタデータ) (2022-12-29T14:20:48Z) - Equivariant Networks for Zero-Shot Coordination [34.95582850032728]
Dec-POMDPのコーディネートを成功させるためには、エージェントは堅牢な戦略と、パートナーのための解釈可能なスタイルを採用する必要がある。
共通の失敗モードは対称性の破れであり、エージェントは等価だが相互に相容れない多くのポリシーのうちの1つに任意に収束する。
ゼロショット調整を改善するために環境対称性を効果的に活用する,Dec-POMDPにおける新しい同変ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-21T17:25:34Z) - Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。
この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。
我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-03T16:41:01Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - K-level Reasoning for Zero-Shot Coordination in Hanabi [26.38814779896388]
我々は,ハナビにおいて,競争力のあるZSCとアドホックなチームプレイのパフォーマンスを得ることができることを示す。
また、最適な応答を伴う同期kレベルの推論という新しい手法も導入する。
論文 参考訳(メタデータ) (2022-07-14T18:53:34Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Quasi-Equivalence Discovery for Zero-Shot Emergent Communication [63.175848843466845]
ゼロショットコーディネーション(ZSC)を実現するための新しい問題設定と準等価探索アルゴリズムを提案する。
これらの2つの要因が参照ゲームにおいて一意に最適なZSCポリシーをもたらすことを示す。
QEDはこの設定における対称性を反復的に発見することができ、最適なZSCポリシーに収束する。
論文 参考訳(メタデータ) (2021-03-14T23:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。