論文の概要: Over-communicate no more: Situated RL agents learn concise communication
protocols
- arxiv url: http://arxiv.org/abs/2211.01480v1
- Date: Wed, 2 Nov 2022 21:08:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 14:04:36.290343
- Title: Over-communicate no more: Situated RL agents learn concise communication
protocols
- Title(参考訳): 通信の過剰化:RLエージェントが簡潔な通信プロトコルを学ぶ
- Authors: Aleksandra Kalinowska, Elnaz Davoodi, Florian Strub, Kory W Mathewson,
Ivana Kajic, Michael Bowling, Todd D Murphey, Patrick M Pilarski
- Abstract要約: 互いに効果的に効率的にコミュニケーションできる人工エージェントをいかに設計するかは、不明である。
強化学習(RL)を用いたコミュニケーションの出現に関する研究
エージェントがコミュニケーションを行うための環境行為を強制しなければならない多段階タスクにおける位置的コミュニケーションについて検討する。
テストされたすべてのプレッシャーは過剰なコミュニケーションを阻害する可能性があるが、位置通信は最も効果的であり、努力のコストとは異なり、発生に悪影響を及ぼさない。
- 参考スコア(独自算出の注目度): 78.28898217947467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While it is known that communication facilitates cooperation in multi-agent
settings, it is unclear how to design artificial agents that can learn to
effectively and efficiently communicate with each other. Much research on
communication emergence uses reinforcement learning (RL) and explores
unsituated communication in one-step referential tasks -- the tasks are not
temporally interactive and lack time pressures typically present in natural
communication. In these settings, agents may successfully learn to communicate,
but they do not learn to exchange information concisely -- they tend towards
over-communication and an inefficient encoding. Here, we explore situated
communication in a multi-step task, where the acting agent has to forgo an
environmental action to communicate. Thus, we impose an opportunity cost on
communication and mimic the real-world pressure of passing time. We compare
communication emergence under this pressure against learning to communicate
with a cost on articulation effort, implemented as a per-message penalty (fixed
and progressively increasing). We find that while all tested pressures can
disincentivise over-communication, situated communication does it most
effectively and, unlike the cost on effort, does not negatively impact
emergence. Implementing an opportunity cost on communication in a temporally
extended environment is a step towards embodiment, and might be a pre-condition
for incentivising efficient, human-like communication.
- Abstract(参考訳): コミュニケーションがマルチエージェント環境での協調を促進することは知られているが、効果的かつ効率的に相互通信を学べる人工エージェントを設計する方法については不明である。
コミュニケーションの出現に関する多くの研究は、強化学習(RL)を使用し、一段階の参照タスクにおける非定常的なコミュニケーションを探究している。タスクは時間的にインタラクティブではなく、一般的には自然なコミュニケーションに存在する時間的プレッシャーが欠如している。これらの設定では、エージェントはコミュニケーションをうまく学習するが、情報交換を簡潔に学ばず、過剰なコミュニケーションや非効率的なエンコーディングに向かう傾向がある。
本稿では,エージェントがコミュニケーションのために環境アクションを許さなければならないマルチステップタスクにおける位置通信について検討する。
このように、通信に機会コストを課し、通過時間の実際のプレッシャーを模倣する。
このプレッシャー下でのコミュニケーションの出現と,メッセージ単位のペナルティ(固定的かつ漸進的に増加する)として実装される調音努力のコストを比較した。
テストされたすべてのプレッシャーは過剰なコミュニケーションを阻害する可能性があるが、位置通信が最も効果的であり、努力のコストとは異なり、発生に悪影響を及ぼさない。
時間的に拡張された環境でのコミュニケーションに機会コストを導入することは、実施に向けたステップであり、効率的で人間的なコミュニケーションを促進するための前提条件である。
関連論文リスト
- Learning Multi-Agent Communication with Contrastive Learning [3.816854668079928]
本稿では,コミュニケーション的メッセージが環境状態の異なる不完全なビューと見なされる,別の視点を紹介する。
送信したメッセージと受信したメッセージの関係を調べることで,コントラスト学習を用いてコミュニケーションを学ぶことを提案する。
通信環境において,本手法は性能と学習速度の両面で,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-03T23:51:05Z) - CAMEL: Communicative Agents for "Mind" Exploration of Large Language
Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。
本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文 参考訳(メタデータ) (2023-03-31T01:09:00Z) - AC2C: Adaptively Controlled Two-Hop Communication for Multi-Agent
Reinforcement Learning [4.884877440051105]
本稿では,AC2C(Adaptive Controlled Two-Hop Communication)と呼ばれる新しい通信プロトコルを提案する。
AC2Cは、エージェント間の長距離情報交換によるパフォーマンス向上を可能にするために、適応的な2ホップ通信戦略を採用している。
本稿では,3つの協調型マルチエージェントタスクにおけるAC2Cの評価を行った。
論文 参考訳(メタデータ) (2023-02-24T09:00:34Z) - Certifiably Robust Policy Learning against Adversarial Communication in
Multi-agent Systems [51.6210785955659]
多くのマルチエージェント強化学習(MARL)では,エージェントが情報を共有し,適切な判断を下す上でコミュニケーションが重要である。
しかし、ノイズや潜在的な攻撃者が存在する現実世界のアプリケーションに訓練された通信エージェントを配置すると、通信ベースのポリシーの安全性は過小評価されている深刻な問題となる。
本研究では,攻撃者が任意の$CfracN-12$エージェントから被害者エージェントへの通信を任意に変更できる,$N$エージェントを備えた環境を検討する。
論文 参考訳(メタデータ) (2022-06-21T07:32:18Z) - The Enforcers: Consistent Sparse-Discrete Methods for Constraining
Informative Emergent Communication [5.432350993419402]
コミュニケーションは、エージェントが目標を達成するために協力することを可能にする。
疎間コミュニケーションの学習における最近の研究は、特に協調作業において、コミュニケーションの減少のコストが報酬の減少につながるような、高分散トレーニングに悩まされている。
本研究は、コミュニケーションの減少による報酬の損失を抑え、差別に対するペナルティを排除し、上記の課題に対処する。
論文 参考訳(メタデータ) (2022-01-19T07:31:06Z) - Interpretation of Emergent Communication in Heterogeneous Collaborative
Embodied Agents [83.52684405389445]
本稿では,コラボレーティブな多目的ナビゲーションタスクCoMONを紹介する。
この課題において、オラクルエージェントは、地図の形式で詳細な環境情報を有する。
視覚的に環境を知覚するナビゲーターエージェントと通信し、目標のシーケンスを見つけるのが任務である。
創発的コミュニケーションはエージェントの観察と3次元環境の空間構造に基礎を置くことができることを示す。
論文 参考訳(メタデータ) (2021-10-12T06:56:11Z) - Adversarial Attacks On Multi-Agent Communication [80.4392160849506]
現代の自律システムはすぐに大規模に展開され、協調型マルチエージェントシステムの可能性を広げる。
このような利点は、セキュリティ侵害に対して脆弱であることが示されている通信チャネルに大きく依存している。
本稿では,エージェントが学習した中間表現を共有してコミュニケーションする新しいマルチエージェント環境において,このような攻撃を探索する。
論文 参考訳(メタデータ) (2021-01-17T00:35:26Z) - Exploring Zero-Shot Emergent Communication in Embodied Multi-Agent
Populations [59.608216900601384]
本研究では,3次元環境下で関節を作動させることでコミュニケーションを学ぶエージェントについて検討する。
現実的な仮定、意図の非一様分布、共通知識エネルギーコストにおいて、これらのエージェントは新規パートナーに一般化するプロトコルを見つけることができることを示す。
論文 参考訳(メタデータ) (2020-10-29T19:23:10Z) - Learning to Communicate Using Counterfactual Reasoning [2.8110705488739676]
本稿では,Multi-agent counterfactual communication learning (MACC)法を提案する。
MACCは、通信エージェントの信用割当問題を克服するために、対実的推論に適応する。
実験の結果,MACCは粒子環境における4つのシナリオにおいて,最先端のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-06-12T14:02:04Z) - Learning Individually Inferred Communication for Multi-Agent Cooperation [37.56115000150748]
我々はエージェントエージェントがエージェントエージェントコミュニケーションの事前学習を可能にするために、個別推論通信(I2C)を提案する。
先行知識は因果推論によって学習され、フィードフォワードニューラルネットワークによって実現される。
I2Cは通信オーバーヘッドを減らすだけでなく、様々なマルチエージェント協調シナリオのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-06-11T14:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。