論文の概要: Preference Communication in Multi-Objective Normal-Form Games
- arxiv url: http://arxiv.org/abs/2111.09191v1
- Date: Wed, 17 Nov 2021 15:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 16:02:44.590428
- Title: Preference Communication in Multi-Objective Normal-Form Games
- Title(参考訳): 多目的ノーマルフォームゲームにおける選好コミュニケーション
- Authors: Willem R\"opke, Diederik M. Roijers, Ann Now\'e, Roxana R\u{a}dulescu
- Abstract要約: マルチオブジェクト環境において,複数のエージェントが同時に学習する問題について検討する。
協調型および自己関心型のコミュニケーションのための4つの新しい嗜好通信プロトコルを導入する。
嗜好コミュニケーションは学習過程を劇的に変化させ,循環的ナッシュ均衡の出現につながることが判明した。
- 参考スコア(独自算出の注目度): 3.8099752264464883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of multiple agents learning concurrently in a
multi-objective environment. Specifically, we consider two agents that
repeatedly play a multi-objective normal-form game. In such games, the payoffs
resulting from joint actions are vector valued. Taking a utility-based
approach, we assume a utility function exists that maps vectors to scalar
utilities and consider agents that aim to maximise the utility of expected
payoff vectors. As agents do not necessarily know their opponent's utility
function or strategy, they must learn optimal policies to interact with each
other. To aid agents in arriving at adequate solutions, we introduce four novel
preference communication protocols for both cooperative as well as
self-interested communication. Each approach describes a specific protocol for
one agent communicating preferences over their actions and how another agent
responds. These protocols are subsequently evaluated on a set of five benchmark
games against baseline agents that do not communicate. We find that preference
communication can drastically alter the learning process and lead to the
emergence of cyclic Nash equilibria which had not been previously observed in
this setting. Additionally, we introduce a communication scheme where agents
must learn when to communicate. For agents in games with Nash equilibria, we
find that communication can be beneficial but difficult to learn when agents
have different preferred equilibria. When this is not the case, agents become
indifferent to communication. In games without Nash equilibria, our results
show differences across learning rates. When using faster learners, we observe
that explicit communication becomes more prevalent at around 50% of the time,
as it helps them in learning a compromise joint policy. Slower learners retain
this pattern to a lesser degree, but show increased indifference.
- Abstract(参考訳): マルチオブジェクト環境において,複数のエージェントが同時に学習する問題について検討する。
具体的には,多目的正規形ゲームを繰り返しプレイするエージェントを2つ検討する。
このようなゲームでは、ジョイントアクションから生じる報酬はベクトル値となる。
ユーティリティベースのアプローチでは,ベクトルをスカラーユーティリティにマッピングするユーティリティ関数が存在すると仮定し,期待されるペイオフベクトルの有用性を最大化するエージェントを検討する。
エージェントは必ずしも相手の実用機能や戦略を知っているわけではないので、互いに対話するための最適なポリシーを学ばなければならない。
適切なソリューションにエージェントが到着するのを助けるため,協調型および自己関心型のコミュニケーションのための4つの新しい選好通信プロトコルを導入する。
それぞれのアプローチは、あるエージェントがアクションに対する好みを伝達する特定のプロトコルと、他のエージェントがどう反応するかを記述する。
これらのプロトコルはその後、通信しないベースラインエージェントに対する5つのベンチマークゲームで評価される。
選好コミュニケーションによって学習過程が劇的に変化し,これまで観測されていなかった循環ナッシュ平衡が出現する可能性が示唆された。
さらに,エージェントがコミュニケーションのタイミングを学習しなければならないコミュニケーション方式を提案する。
nash平衡を持つゲームのエージェントにとって、コミュニケーションは有益であるが、エージェントが異なる選択平衡を持つ場合の学習は困難である。
このような場合、エージェントはコミュニケーションに無関心になる。
ナッシュ均衡のないゲームでは,学習率に差が認められた。
より高速な学習者を使う場合、妥協政策を学ぶのに役立つため、明示的なコミュニケーションが50%前後でより普及しているのが観察される。
より遅い学習者は、このパターンをより少ない程度に維持するが、無関心が増す。
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Fast Peer Adaptation with Context-aware Exploration [63.08444527039578]
マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
論文 参考訳(メタデータ) (2024-02-04T13:02:27Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Over-communicate no more: Situated RL agents learn concise communication
protocols [78.28898217947467]
互いに効果的に効率的にコミュニケーションできる人工エージェントをいかに設計するかは、不明である。
強化学習(RL)を用いたコミュニケーションの出現に関する研究
エージェントがコミュニケーションを行うための環境行為を強制しなければならない多段階タスクにおける位置的コミュニケーションについて検討する。
テストされたすべてのプレッシャーは過剰なコミュニケーションを阻害する可能性があるが、位置通信は最も効果的であり、努力のコストとは異なり、発生に悪影響を及ぼさない。
論文 参考訳(メタデータ) (2022-11-02T21:08:14Z) - Interpretation of Emergent Communication in Heterogeneous Collaborative
Embodied Agents [83.52684405389445]
本稿では,コラボレーティブな多目的ナビゲーションタスクCoMONを紹介する。
この課題において、オラクルエージェントは、地図の形式で詳細な環境情報を有する。
視覚的に環境を知覚するナビゲーターエージェントと通信し、目標のシーケンスを見つけるのが任務である。
創発的コミュニケーションはエージェントの観察と3次元環境の空間構造に基礎を置くことができることを示す。
論文 参考訳(メタデータ) (2021-10-12T06:56:11Z) - Implicit Communication as Minimum Entropy Coupling [42.13333133772116]
多くの共通ペイオフゲームにおいて、優れたパフォーマンスを達成するためには、プレイヤーは暗黙的にプライベート情報を通信するためのプロトコルを開発する必要がある。
我々は、暗黙的な参照ゲーム(暗黙的なコミュニケーションによる難易度)と呼ばれる、部分的に観察可能なコモンペイオフゲームのクラスを特定する。
提案手法は,非常に大きなメッセージ空間を持つ設定において,性能の高い暗黙的通信プロトコルを検出できることを示す。
論文 参考訳(メタデータ) (2021-07-17T17:44:30Z) - Correcting Experience Replay for Multi-Agent Communication [18.12281605882891]
マルチエージェント強化学習(MARL)を用いたコミュニケーション学習の課題について考察する。
一般的なアプローチは、リプレイバッファからサンプリングされたデータを使って、政治外を学ぶことである。
MARLにより誘導される観測通信の非定常性を考慮した「通信補正」を導入する。
論文 参考訳(メタデータ) (2020-10-02T20:49:24Z) - Pow-Wow: A Dataset and Study on Collaborative Communication in Pommerman [12.498028338281625]
多エージェント学習では、エージェントは成功するために互いに調整する必要がある。人間にとって、この調整は通常、言語の使用によって行われる。
Pow-Wowは、ゴール指向の人間コミュニケーションを測る新しいデータセットである。
我々は,効果的なゲーム戦略をもたらすコミュニケーションの種類を分析し,それに応じて注釈を付けるとともに,コミュニケーションの傾向がゲーム結果に与える影響をコーパスレベルで統計分析する。
論文 参考訳(メタデータ) (2020-09-13T07:11:37Z) - The Emergence of Adversarial Communication in Multi-Agent Reinforcement
Learning [6.18778092044887]
多くの現実世界の問題は、複数の自律エージェントの調整を必要とする。
最近の研究は、複雑なマルチエージェント協調を可能にする明示的なコミュニケーション戦略を学ぶためのグラフニューラルネットワーク(GNN)の約束を示している。
一つの利己的なエージェントが高度に操作的なコミュニケーション戦略を学習し、協調的なエージェントチームを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-08-06T12:48:08Z) - Learning Individually Inferred Communication for Multi-Agent Cooperation [37.56115000150748]
我々はエージェントエージェントがエージェントエージェントコミュニケーションの事前学習を可能にするために、個別推論通信(I2C)を提案する。
先行知識は因果推論によって学習され、フィードフォワードニューラルネットワークによって実現される。
I2Cは通信オーバーヘッドを減らすだけでなく、様々なマルチエージェント協調シナリオのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-06-11T14:07:57Z) - On Emergent Communication in Competitive Multi-Agent Teams [116.95067289206919]
外部のエージェントチームによるパフォーマンスの競争が社会的影響として作用するかどうかを検討する。
以上の結果から,外部競争の影響により精度と一般化が向上し,コミュニケーション言語が急速に出現することが示唆された。
論文 参考訳(メタデータ) (2020-03-04T01:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。