論文の概要: Noisy Zero-Shot Coordination: Breaking The Common Knowledge Assumption In Zero-Shot Coordination Games
- arxiv url: http://arxiv.org/abs/2411.04976v1
- Date: Thu, 07 Nov 2024 18:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:37:51.214338
- Title: Noisy Zero-Shot Coordination: Breaking The Common Knowledge Assumption In Zero-Shot Coordination Games
- Title(参考訳): ノイズの多いゼロショットコーディネーション:ゼロショットコーディネーションゲームにおける共通知識推定を破る
- Authors: Usman Anwar, Ashish Pandian, Jia Wan, David Krueger, Jakob Foerster,
- Abstract要約: ゼロショットコーディネート (ZSC) は、新規パートナーと協調する強化学習 (RL) エージェントの研究に人気がある。
そこで本研究では,NZSC問題をZSC問題に還元する手法として,DEC-POMDPを基本構造とする拡張状態空間を持つメタデック-POMDPを設計する手法を提案する。
NZSCトレーニングでは、協調の(実際に)問題設定が一般的ではない場合でも、RLエージェントが新規パートナーとうまく協調するように訓練できることが示される。
- 参考スコア(独自算出の注目度): 18.390017115631412
- License:
- Abstract: Zero-shot coordination (ZSC) is a popular setting for studying the ability of reinforcement learning (RL) agents to coordinate with novel partners. Prior ZSC formulations assume the $\textit{problem setting}$ is common knowledge: each agent knows the underlying Dec-POMDP, knows others have this knowledge, and so on ad infinitum. However, this assumption rarely holds in complex real-world settings, which are often difficult to fully and correctly specify. Hence, in settings where this common knowledge assumption is invalid, agents trained using ZSC methods may not be able to coordinate well. To address this limitation, we formulate the $\textit{noisy zero-shot coordination}$ (NZSC) problem. In NZSC, agents observe different noisy versions of the ground truth Dec-POMDP, which are assumed to be distributed according to a fixed noise model. Only the distribution of ground truth Dec-POMDPs and the noise model are common knowledge. We show that a NZSC problem can be reduced to a ZSC problem by designing a meta-Dec-POMDP with an augmented state space consisting of all the ground-truth Dec-POMDPs. For solving NZSC problems, we propose a simple and flexible meta-learning method called NZSC training, in which the agents are trained across a distribution of coordination problems - which they only get to observe noisy versions of. We show that with NZSC training, RL agents can be trained to coordinate well with novel partners even when the (exact) problem setting of the coordination is not common knowledge.
- Abstract(参考訳): ゼロショットコーディネート (ZSC) は、新規パートナーと協調する強化学習 (RL) エージェントの研究に人気がある。
以前のZSCの定式化では、$\textit{problem setting}$は共通知識である: 各エージェントは下層のDec-POMDPを知っており、他のエージェントもこの知識を知っている。
しかし、この仮定は、しばしば完全かつ正確に特定することが困難である複雑な現実世界の設定において、まれに成り立つ。
したがって、この共通知識仮定が無効な設定では、ZSCメソッドを使って訓練されたエージェントはうまく協調できない可能性がある。
この制限に対処するために、$\textit{noisy zero-shot coordinate}$ (NZSC) 問題を定式化する。
NZSCでは、エージェントは、固定ノイズモデルに従って分布すると仮定される、基底真理の異なるノイズバージョンDec-POMDPを観測する。
基底真実の分布であるDec-POMDPとノイズモデルのみが一般的な知識である。
そこで本研究では,NZSC問題をZSC問題に還元する手法として,DEC-POMDPを基本構造とする拡張状態空間を持つメタデック-POMDPを設計する手法を提案する。
NZSCの問題を解決するために,NZSCトレーニングと呼ばれるシンプルで柔軟なメタ学習手法を提案する。
NZSCトレーニングでは、協調の(実際に)問題設定が一般的ではない場合でも、RLエージェントが新規パートナーとうまく協調するように訓練できることが示される。
関連論文リスト
- iLLM-TSC: Integration reinforcement learning and large language model for traffic signal control policy improvement [5.078593258867346]
大規模言語モデル(LLM)と強化学習(RL)を組み合わせた新しい統合フレームワークを提案する。
提案手法は,従来のRL法と比較して,通信条件の劣化により平均待ち時間を17.5%削減する。
論文 参考訳(メタデータ) (2024-07-08T15:22:49Z) - Learning Translations: Emergent Communication Pretraining for
Cooperative Language Acquisition [0.7832189413179361]
Emergent Communication (EC) エージェントは互いに通信することを学ぶが、彼らが開発するプロトコルはトレーニングコミュニティに特化している。
この観察は、訓練中に遭遇しないエージェントに対して堅牢なコミュニケーション戦略を学習するためのゼロショットコーディネーション(ZSC)の研究につながった。
本稿では,協調言語獲得問題(CLAP,Cooperative Language Acquisition Problem)と呼ばれる新たなAI課題を提案する。
論文 参考訳(メタデータ) (2024-02-26T02:13:36Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person
Search [56.02761592710612]
モジュール・パーソン・サーチのための新しいアテンション・アウェア・リレーション・ミキサー(ARM)を提案する。
私たちのARMモジュールはネイティブで、きめ細かい監督やトポロジカルな仮定に依存していません。
我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-07T10:04:12Z) - K-level Reasoning for Zero-Shot Coordination in Hanabi [26.38814779896388]
我々は,ハナビにおいて,競争力のあるZSCとアドホックなチームプレイのパフォーマンスを得ることができることを示す。
また、最適な応答を伴う同期kレベルの推論という新しい手法も導入する。
論文 参考訳(メタデータ) (2022-07-14T18:53:34Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Quasi-Equivalence Discovery for Zero-Shot Emergent Communication [63.175848843466845]
ゼロショットコーディネーション(ZSC)を実現するための新しい問題設定と準等価探索アルゴリズムを提案する。
これらの2つの要因が参照ゲームにおいて一意に最適なZSCポリシーをもたらすことを示す。
QEDはこの設定における対称性を反復的に発見することができ、最適なZSCポリシーに収束する。
論文 参考訳(メタデータ) (2021-03-14T23:42:37Z) - Local Stochastic Gradient Descent Ascent: Convergence Analysis and
Communication Efficiency [15.04034188283642]
Local SGDは分散学習における通信オーバーヘッドを克服するための有望なアプローチである。
局所sgdaは均質データと異質データの両方において分散ミニマックス問題を確実に最適化できることを示す。
論文 参考訳(メタデータ) (2021-02-25T20:15:18Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。