論文の概要: An In-Depth Analysis of Discretization Methods for Communication
Learning using Backpropagation with Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.04938v1
- Date: Wed, 9 Aug 2023 13:13:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 13:43:55.749878
- Title: An In-Depth Analysis of Discretization Methods for Communication
Learning using Backpropagation with Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習を用いたバックプロパゲーションを用いたコミュニケーション学習における離散化手法の奥行き解析
- Authors: Astrid Vanneste, Simon Vanneste, Kevin Mets, Tom De Schepper,
Siegfried Mercelis, Peter Hellinckx
- Abstract要約: 本稿では,最先端の離散化手法と新しいアプローチを比較した。
本稿では,DIALとCOMAに基づくコミュニケーション学習手法であるCOMA-DIALについて述べる。
本報告では,ST-DRU法は, 異なる環境における識別方法のすべてにおいて, 最適な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication is crucial in multi-agent reinforcement learning when agents
are not able to observe the full state of the environment. The most common
approach to allow learned communication between agents is the use of a
differentiable communication channel that allows gradients to flow between
agents as a form of feedback. However, this is challenging when we want to use
discrete messages to reduce the message size, since gradients cannot flow
through a discrete communication channel. Previous work proposed methods to
deal with this problem. However, these methods are tested in different
communication learning architectures and environments, making it hard to
compare them. In this paper, we compare several state-of-the-art discretization
methods as well as a novel approach. We do this comparison in the context of
communication learning using gradients from other agents and perform tests on
several environments. In addition, we present COMA-DIAL, a communication
learning approach based on DIAL and COMA extended with learning rate scaling
and adapted exploration. Using COMA-DIAL allows us to perform experiments on
more complex environments. Our results show that the novel ST-DRU method,
proposed in this paper, achieves the best results out of all discretization
methods across the different environments. It achieves the best or close to the
best performance in each of the experiments and is the only method that does
not fail on any of the tested environments.
- Abstract(参考訳): エージェントが環境の完全な状態を観察できない場合、マルチエージェント強化学習ではコミュニケーションが不可欠である。
エージェント間の学習的なコミュニケーションを可能にする最も一般的なアプローチは、フィードバックの形式としてエージェント間の勾配を流すことができる、微分可能なコミュニケーションチャネルの使用である。
しかし、メッセージサイズを小さくするために離散メッセージを使用する場合、勾配は離散通信チャネルを流れることができないため、これは困難である。
以前の研究ではこの問題に対処する方法を提案していた。
しかし、これらの手法は異なるコミュニケーション学習アーキテクチャと環境でテストされており、比較が困難である。
本稿では,最先端の離散化手法と新しい手法の比較を行う。
この比較は、他のエージェントからの勾配を用いたコミュニケーション学習の文脈で行い、複数の環境でテストを実行する。
さらに、DIALとCOMAに基づくコミュニケーション学習手法であるCOMA-DIALについて、学習率のスケーリングと適応探索を拡張した。
COMA-DIALを使うことで、より複雑な環境で実験を行うことができます。
本報告では,ST-DRU法は,異なる環境における識別方法のすべてにおいて,最良の結果が得られることを示す。
それぞれの実験で最高のパフォーマンスまたは最も近いパフォーマンスを達成し、テストされた環境において失敗しない唯一の方法である。
関連論文リスト
- Accelerated Stochastic ExtraGradient: Mixing Hessian and Gradient Similarity to Reduce Communication in Distributed and Federated Learning [50.382793324572845]
分散コンピューティングはデバイス間の通信を伴うため、効率性とプライバシという2つの重要な問題を解決する必要がある。
本稿では,データ類似性とクライアントサンプリングのアイデアを取り入れた新しい手法について分析する。
プライバシー問題に対処するために,付加雑音の手法を適用し,提案手法の収束への影響を解析する。
論文 参考訳(メタデータ) (2024-09-22T00:49:10Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Fully Independent Communication in Multi-Agent Reinforcement Learning [4.470370168359807]
MARL(Multi-Agent Reinforcement Learning)は、マルチエージェントシステム分野における幅広い研究領域である。
パラメータを共有しないMARLの独立学習者がいかにコミュニケーションできるかを検討する。
この結果から, 独立エージェントは, 課題にも拘わらず, コミュニケーション戦略を学習できることが示唆された。
論文 参考訳(メタデータ) (2024-01-26T18:42:01Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Learning Multi-Agent Communication with Contrastive Learning [3.816854668079928]
本稿では,コミュニケーション的メッセージが環境状態の異なる不完全なビューと見なされる,別の視点を紹介する。
送信したメッセージと受信したメッセージの関係を調べることで,コントラスト学習を用いてコミュニケーションを学ぶことを提案する。
通信環境において,本手法は性能と学習速度の両面で,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-03T23:51:05Z) - An Analysis of Discretization Methods for Communication Learning with
Multi-Agent Reinforcement Learning [0.0]
我々は,これまでコミュニケーション学習に使用されていなかった2つの手法と,最先端の離散化手法を比較した。
離散化法における最良の選択は環境に大きく依存する。
論文 参考訳(メタデータ) (2022-04-12T09:54:58Z) - Learning Selective Communication for Multi-Agent Path Finding [18.703918339797283]
決定因果通信(Decision Causal Communication、DCC)は、エージェントが隣人を選択して通信を行うためのシンプルで効率的なモデルである。
DCCは大規模問題を扱うために分散実行に適している。
論文 参考訳(メタデータ) (2021-09-12T03:07:20Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Correcting Experience Replay for Multi-Agent Communication [18.12281605882891]
マルチエージェント強化学習(MARL)を用いたコミュニケーション学習の課題について考察する。
一般的なアプローチは、リプレイバッファからサンプリングされたデータを使って、政治外を学ぶことである。
MARLにより誘導される観測通信の非定常性を考慮した「通信補正」を導入する。
論文 参考訳(メタデータ) (2020-10-02T20:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。