論文の概要: An Analysis of Discretization Methods for Communication Learning with
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.05669v1
- Date: Tue, 12 Apr 2022 09:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 14:36:40.744142
- Title: An Analysis of Discretization Methods for Communication Learning with
Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習によるコミュニケーション学習のための離散化手法の解析
- Authors: Astrid Vanneste, Simon Vanneste, Kevin Mets, Tom De Schepper,
Siegfried Mercelis, Steven Latr\'e, Peter Hellinckx
- Abstract要約: 我々は,これまでコミュニケーション学習に使用されていなかった2つの手法と,最先端の離散化手法を比較した。
離散化法における最良の選択は環境に大きく依存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication is crucial in multi-agent reinforcement learning when agents
are not able to observe the full state of the environment. The most common
approach to allow learned communication between agents is the use of a
differentiable communication channel that allows gradients to flow between
agents as a form of feedback. However, this is challenging when we want to use
discrete messages to reduce the message size since gradients cannot flow
through a discrete communication channel. Previous work proposed methods to
deal with this problem. However, these methods are tested in different
communication learning architectures and environments, making it hard to
compare them. In this paper, we compare several state-of-the-art discretization
methods as well as two methods that have not been used for communication
learning before. We do this comparison in the context of communication learning
using gradients from other agents and perform tests on several environments.
Our results show that none of the methods is best in all environments. The best
choice in discretization method greatly depends on the environment. However,
the discretize regularize unit (DRU), straight through DRU and the straight
through gumbel softmax show the most consistent results across all the tested
environments. Therefore, these methods prove to be the best choice for general
use while the straight through estimator and the gumbel softmax may provide
better results in specific environments but fail completely in others.
- Abstract(参考訳): エージェントが環境の完全な状態を観察できない場合、マルチエージェント強化学習ではコミュニケーションが不可欠である。
エージェント間の学習的なコミュニケーションを可能にする最も一般的なアプローチは、フィードバックの形式としてエージェント間の勾配を流すことができる、微分可能なコミュニケーションチャネルの使用である。
しかし、勾配が離散的な通信チャネルを流れることができないため、メッセージサイズを小さくするために離散メッセージを使用する場合、これは困難である。
以前の研究ではこの問題に対処する方法を提案していた。
しかし、これらの手法は異なるコミュニケーション学習アーキテクチャと環境でテストされており、比較が困難である。
本稿では,従来のコミュニケーション学習に使用されていない2つの手法と,最先端の離散化手法を比較した。
この比較は、他のエージェントからの勾配を用いたコミュニケーション学習の文脈で行い、複数の環境でテストを実行する。
その結果,どの手法もすべての環境において最適ではないことがわかった。
離散化法の最良の選択は、環境に大きく依存する。
しかし、離散正則化ユニット(DRU)は、DRUを直進し、ガムベルソフトマックスを直進し、全てのテスト環境において最も一貫した結果を示す。
したがって、これらの手法は一般的な用途に最適であり、ストレートスルー推定器とガムベルソフトマックスは特定の環境でより良い結果をもたらすが、他の環境では完全に失敗する可能性がある。
関連論文リスト
- Fully Independent Communication in Multi-Agent Reinforcement Learning [4.883558259729863]
MARL(Multi-Agent Reinforcement Learning)は、マルチエージェントシステム分野における幅広い研究領域である。
パラメータを共有しないMARLの独立学習者がいかにコミュニケーションできるかを検討する。
この結果から, 独立エージェントは, 課題にも拘わらず, コミュニケーション戦略を学習できることが示唆された。
論文 参考訳(メタデータ) (2024-01-26T18:42:01Z) - An In-Depth Analysis of Discretization Methods for Communication
Learning using Backpropagation with Multi-Agent Reinforcement Learning [0.0]
本稿では,最先端の離散化手法と新しいアプローチを比較した。
本稿では,DIALとCOMAに基づくコミュニケーション学習手法であるCOMA-DIALについて述べる。
本報告では,ST-DRU法は, 異なる環境における識別方法のすべてにおいて, 最適な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-08-09T13:13:19Z) - MA-Dreamer: Coordination and communication through shared imagination [5.253168177256072]
エージェント中心およびグローバルな環境の微分可能なモデルの両方を利用するモデルベース手法であるMA-Dreamerを提案する。
実験の結果,長期話者リスナータスクや強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerはコーディネートを効果的に活用する解を見出すことができた。
論文 参考訳(メタデータ) (2022-04-10T13:54:26Z) - Learning Selective Communication for Multi-Agent Path Finding [18.703918339797283]
決定因果通信(Decision Causal Communication、DCC)は、エージェントが隣人を選択して通信を行うためのシンプルで効率的なモデルである。
DCCは大規模問題を扱うために分散実行に適している。
論文 参考訳(メタデータ) (2021-09-12T03:07:20Z) - Fuzzy-Rough Nearest Neighbour Approaches for Emotion Detection in Tweets [1.7581155313656314]
ソーシャルメディアは、感情分析や感情認識といった様々なタスクで使用できる意味のあるデータの本質的な情報源である。
ファジィ粗近傍(FRNN)に基づくSemEval-2018感情検出タスクのためのアプローチを開発する。
我々の結果は、より複雑なディープラーニング手法に基づく最高のSemEvalソリューションと競合する。
論文 参考訳(メタデータ) (2021-07-08T12:52:47Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Unsupervised Dense Shape Correspondence using Heat Kernels [50.682560435495034]
本稿では,近年の深層関数マップフレームワークを用いて,形状間の密接な対応を学習するための教師なし手法を提案する。
地平線対応や計算に高価な測地線距離に依存するのではなく、熱核を用いる。
本稿では,部分性,トポロジカルノイズ,接続性の違いなど,様々な課題があるベンチマークに対して,本手法の結果を示す。
論文 参考訳(メタデータ) (2020-10-23T21:54:10Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。