論文の概要: An Analysis of Discretization Methods for Communication Learning with
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.05669v1
- Date: Tue, 12 Apr 2022 09:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 14:36:40.744142
- Title: An Analysis of Discretization Methods for Communication Learning with
Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習によるコミュニケーション学習のための離散化手法の解析
- Authors: Astrid Vanneste, Simon Vanneste, Kevin Mets, Tom De Schepper,
Siegfried Mercelis, Steven Latr\'e, Peter Hellinckx
- Abstract要約: 我々は,これまでコミュニケーション学習に使用されていなかった2つの手法と,最先端の離散化手法を比較した。
離散化法における最良の選択は環境に大きく依存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication is crucial in multi-agent reinforcement learning when agents
are not able to observe the full state of the environment. The most common
approach to allow learned communication between agents is the use of a
differentiable communication channel that allows gradients to flow between
agents as a form of feedback. However, this is challenging when we want to use
discrete messages to reduce the message size since gradients cannot flow
through a discrete communication channel. Previous work proposed methods to
deal with this problem. However, these methods are tested in different
communication learning architectures and environments, making it hard to
compare them. In this paper, we compare several state-of-the-art discretization
methods as well as two methods that have not been used for communication
learning before. We do this comparison in the context of communication learning
using gradients from other agents and perform tests on several environments.
Our results show that none of the methods is best in all environments. The best
choice in discretization method greatly depends on the environment. However,
the discretize regularize unit (DRU), straight through DRU and the straight
through gumbel softmax show the most consistent results across all the tested
environments. Therefore, these methods prove to be the best choice for general
use while the straight through estimator and the gumbel softmax may provide
better results in specific environments but fail completely in others.
- Abstract(参考訳): エージェントが環境の完全な状態を観察できない場合、マルチエージェント強化学習ではコミュニケーションが不可欠である。
エージェント間の学習的なコミュニケーションを可能にする最も一般的なアプローチは、フィードバックの形式としてエージェント間の勾配を流すことができる、微分可能なコミュニケーションチャネルの使用である。
しかし、勾配が離散的な通信チャネルを流れることができないため、メッセージサイズを小さくするために離散メッセージを使用する場合、これは困難である。
以前の研究ではこの問題に対処する方法を提案していた。
しかし、これらの手法は異なるコミュニケーション学習アーキテクチャと環境でテストされており、比較が困難である。
本稿では,従来のコミュニケーション学習に使用されていない2つの手法と,最先端の離散化手法を比較した。
この比較は、他のエージェントからの勾配を用いたコミュニケーション学習の文脈で行い、複数の環境でテストを実行する。
その結果,どの手法もすべての環境において最適ではないことがわかった。
離散化法の最良の選択は、環境に大きく依存する。
しかし、離散正則化ユニット(DRU)は、DRUを直進し、ガムベルソフトマックスを直進し、全てのテスト環境において最も一貫した結果を示す。
したがって、これらの手法は一般的な用途に最適であり、ストレートスルー推定器とガムベルソフトマックスは特定の環境でより良い結果をもたらすが、他の環境では完全に失敗する可能性がある。
関連論文リスト
- Accelerated Stochastic ExtraGradient: Mixing Hessian and Gradient Similarity to Reduce Communication in Distributed and Federated Learning [50.382793324572845]
分散コンピューティングはデバイス間の通信を伴うため、効率性とプライバシという2つの重要な問題を解決する必要がある。
本稿では,データ類似性とクライアントサンプリングのアイデアを取り入れた新しい手法について分析する。
プライバシー問題に対処するために,付加雑音の手法を適用し,提案手法の収束への影響を解析する。
論文 参考訳(メタデータ) (2024-09-22T00:49:10Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Fully Independent Communication in Multi-Agent Reinforcement Learning [4.470370168359807]
MARL(Multi-Agent Reinforcement Learning)は、マルチエージェントシステム分野における幅広い研究領域である。
パラメータを共有しないMARLの独立学習者がいかにコミュニケーションできるかを検討する。
この結果から, 独立エージェントは, 課題にも拘わらず, コミュニケーション戦略を学習できることが示唆された。
論文 参考訳(メタデータ) (2024-01-26T18:42:01Z) - An In-Depth Analysis of Discretization Methods for Communication
Learning using Backpropagation with Multi-Agent Reinforcement Learning [0.0]
本稿では,最先端の離散化手法と新しいアプローチを比較した。
本稿では,DIALとCOMAに基づくコミュニケーション学習手法であるCOMA-DIALについて述べる。
本報告では,ST-DRU法は, 異なる環境における識別方法のすべてにおいて, 最適な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-08-09T13:13:19Z) - MA-Dreamer: Coordination and communication through shared imagination [5.253168177256072]
エージェント中心およびグローバルな環境の微分可能なモデルの両方を利用するモデルベース手法であるMA-Dreamerを提案する。
実験の結果,長期話者リスナータスクや強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerはコーディネートを効果的に活用する解を見出すことができた。
論文 参考訳(メタデータ) (2022-04-10T13:54:26Z) - Learning Selective Communication for Multi-Agent Path Finding [18.703918339797283]
決定因果通信(Decision Causal Communication、DCC)は、エージェントが隣人を選択して通信を行うためのシンプルで効率的なモデルである。
DCCは大規模問題を扱うために分散実行に適している。
論文 参考訳(メタデータ) (2021-09-12T03:07:20Z) - Fuzzy-Rough Nearest Neighbour Approaches for Emotion Detection in Tweets [1.7581155313656314]
ソーシャルメディアは、感情分析や感情認識といった様々なタスクで使用できる意味のあるデータの本質的な情報源である。
ファジィ粗近傍(FRNN)に基づくSemEval-2018感情検出タスクのためのアプローチを開発する。
我々の結果は、より複雑なディープラーニング手法に基づく最高のSemEvalソリューションと競合する。
論文 参考訳(メタデータ) (2021-07-08T12:52:47Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。