論文の概要: Equivariant Networks for Zero-Shot Coordination
- arxiv url: http://arxiv.org/abs/2210.12124v1
- Date: Fri, 21 Oct 2022 17:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:47:45.552934
- Title: Equivariant Networks for Zero-Shot Coordination
- Title(参考訳): ゼロショットコーディネーションのための等変ネットワーク
- Authors: Darius Muglich, Christian Schroeder de Witt, Elise van der Pol, Shimon
Whiteson, Jakob Foerster
- Abstract要約: Dec-POMDPのコーディネートを成功させるためには、エージェントは堅牢な戦略と、パートナーのための解釈可能なスタイルを採用する必要がある。
共通の失敗モードは対称性の破れであり、エージェントは等価だが相互に相容れない多くのポリシーのうちの1つに任意に収束する。
そこで本研究では,Dec-POMDPにおいて,エージェントが対称性を破るポリシを学習することを防止するための,新しい同変ネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 46.334636416993106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Successful coordination in Dec-POMDPs requires agents to adopt robust
strategies and interpretable styles of play for their partner. A common failure
mode is symmetry breaking, when agents arbitrarily converge on one out of many
equivalent but mutually incompatible policies. Commonly these examples include
partial observability, e.g. waving your right hand vs. left hand to convey a
covert message. In this paper, we present a novel equivariant network
architecture for use in Dec-POMDPs that prevents the agent from learning
policies which break symmetries, doing so more effectively than prior methods.
Our method also acts as a "coordination-improvement operator" for generic,
pre-trained policies, and thus may be applied at test-time in conjunction with
any self-play algorithm. We provide theoretical guarantees of our work and test
on the AI benchmark task of Hanabi, where we demonstrate our methods
outperforming other symmetry-aware baselines in zero-shot coordination, as well
as able to improve the coordination ability of a variety of pre-trained
policies. In particular, we show our method can be used to improve on the state
of the art for zero-shot coordination on the Hanabi benchmark.
- Abstract(参考訳): dec-pomdpsでの協調に成功したエージェントは、パートナーのために堅牢な戦略と解釈可能なプレイスタイルを採用する必要がある。
共通障害モードは対称性の破れであり、エージェントが複数の等価だが相互に互換性のないポリシーのうち1つに任意に収束する。
一般的には、右手と左手を振って秘密のメッセージを伝達する部分的可観測性がある。
本稿では,Dec-POMDPで使用する新しい同変ネットワークアーキテクチャを提案する。
提案手法は,汎用的かつ事前学習されたポリシーに対して,コーディネーション改善演算子として機能するので,任意のセルフプレイアルゴリズムと組み合わせてテスト時に適用することができる。
我々は,ハナビのAIベンチマークタスクにおける作業とテストの理論的保証を提供し,ゼロショット調整における他の対称性認識ベースラインよりも優れた手法を実証するとともに,事前訓練されたさまざまなポリシーの調整能力を向上させる。
特に,本手法は,hanabiベンチマークにおけるゼロショットコーディネーションの技術を改善できることを示す。
関連論文リスト
- AgentMixer: Multi-Agent Correlated Policy Factorization [39.041191852287525]
エージェントがそれらのポリシーを関連付けるためのメカニズムを提供するために、テクストゥラティクスの修正を導入する。
本稿では,個別の可観測ポリシの非線形結合として,完全可観測ポリシを構成する新しいフレームワークであるAgentMixerを提案する。
AgentMixerは$epsilon$-approximate Correlated Equilibriumに収束することを示す。
論文 参考訳(メタデータ) (2024-01-16T15:32:41Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Detection and Mitigation of Byzantine Attacks in Distributed Training [24.951227624475443]
ワーカノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。
最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するために頑健な集約と/または計算冗長性を探究している。
本研究では、強力な攻撃モデルについて検討する:$q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak one: $q$ randomly selected adversaries with limited collusion abilities。
論文 参考訳(メタデータ) (2022-08-17T05:49:52Z) - K-level Reasoning for Zero-Shot Coordination in Hanabi [26.38814779896388]
我々は,ハナビにおいて,競争力のあるZSCとアドホックなチームプレイのパフォーマンスを得ることができることを示す。
また、最適な応答を伴う同期kレベルの推論という新しい手法も導入する。
論文 参考訳(メタデータ) (2022-07-14T18:53:34Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Calibration of Shared Equilibria in General Sum Partially Observable
Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。
本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文 参考訳(メタデータ) (2020-06-23T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。