Fugu-MT 論文翻訳(概要): An Analysis of Discretization Methods for Communication Learning with Multi-Agent Reinforcement Learning

論文の概要: An Analysis of Discretization Methods for Communication Learning with Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2204.05669v1
Date: Tue, 12 Apr 2022 09:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-13 14:36:40.744142
Title: An Analysis of Discretization Methods for Communication Learning with Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習によるコミュニケーション学習のための離散化手法の解析
Authors: Astrid Vanneste, Simon Vanneste, Kevin Mets, Tom De Schepper, Siegfried Mercelis, Steven Latr\'e, Peter Hellinckx
Abstract要約: 我々は,これまでコミュニケーション学習に使用されていなかった2つの手法と,最先端の離散化手法を比較した。離散化法における最良の選択は環境に大きく依存する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Communication is crucial in multi-agent reinforcement learning when agents are not able to observe the full state of the environment. The most common approach to allow learned communication between agents is the use of a differentiable communication channel that allows gradients to flow between agents as a form of feedback. However, this is challenging when we want to use discrete messages to reduce the message size since gradients cannot flow through a discrete communication channel. Previous work proposed methods to deal with this problem. However, these methods are tested in different communication learning architectures and environments, making it hard to compare them. In this paper, we compare several state-of-the-art discretization methods as well as two methods that have not been used for communication learning before. We do this comparison in the context of communication learning using gradients from other agents and perform tests on several environments. Our results show that none of the methods is best in all environments. The best choice in discretization method greatly depends on the environment. However, the discretize regularize unit (DRU), straight through DRU and the straight through gumbel softmax show the most consistent results across all the tested environments. Therefore, these methods prove to be the best choice for general use while the straight through estimator and the gumbel softmax may provide better results in specific environments but fail completely in others.
Abstract（参考訳）: エージェントが環境の完全な状態を観察できない場合、マルチエージェント強化学習ではコミュニケーションが不可欠である。エージェント間の学習的なコミュニケーションを可能にする最も一般的なアプローチは、フィードバックの形式としてエージェント間の勾配を流すことができる、微分可能なコミュニケーションチャネルの使用である。しかし、勾配が離散的な通信チャネルを流れることができないため、メッセージサイズを小さくするために離散メッセージを使用する場合、これは困難である。以前の研究ではこの問題に対処する方法を提案していた。しかし、これらの手法は異なるコミュニケーション学習アーキテクチャと環境でテストされており、比較が困難である。本稿では,従来のコミュニケーション学習に使用されていない2つの手法と,最先端の離散化手法を比較した。この比較は、他のエージェントからの勾配を用いたコミュニケーション学習の文脈で行い、複数の環境でテストを実行する。その結果,どの手法もすべての環境において最適ではないことがわかった。離散化法の最良の選択は、環境に大きく依存する。しかし、離散正則化ユニット(DRU)は、DRUを直進し、ガムベルソフトマックスを直進し、全てのテスト環境において最も一貫した結果を示す。したがって、これらの手法は一般的な用途に最適であり、ストレートスルー推定器とガムベルソフトマックスは特定の環境でより良い結果をもたらすが、他の環境では完全に失敗する可能性がある。

関連論文リスト

Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-31T09:42:42Z)
GeoMM: On Geodesic Perspective for Multi-modal Learning [55.41612200877861]
本稿では,マルチモーダル学習における測地線距離を新しい距離測定基準として導入する。我々のアプローチは、現在のマルチモーダル学習に測地距離を適用するための包括的な戦略を取り入れている。
論文参考訳（メタデータ） (2025-05-16T13:12:41Z)
Accelerated Stochastic ExtraGradient: Mixing Hessian and Gradient Similarity to Reduce Communication in Distributed and Federated Learning [50.382793324572845]
分散コンピューティングはデバイス間の通信を伴うため、効率性とプライバシという2つの重要な問題を解決する必要がある。本稿では,データ類似性とクライアントサンプリングのアイデアを取り入れた新しい手法について分析する。プライバシー問題に対処するために,付加雑音の手法を適用し,提案手法の収束への影響を解析する。
論文参考訳（メタデータ） (2024-09-22T00:49:10Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
POGEMA: A Benchmark Platform for Cooperative Multi-Agent Pathfinding [76.67608003501479]
POGEMAは、学習のための高速環境、問題インスタンスジェネレータ、可視化ツールキットを含む、総合的なツールセットである。また、プライマリ評価指標に基づいて計算されるドメイン関連メトリクスの範囲を規定する評価プロトコルを導入し、定義する。この比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含む。
論文参考訳（メタデータ） (2024-07-20T16:37:21Z)
Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。本手法は, 標準確率流モデルの再構成に基づく。実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文参考訳（メタデータ） (2024-03-25T17:58:22Z)
Fully Independent Communication in Multi-Agent Reinforcement Learning [4.470370168359807]
MARL(Multi-Agent Reinforcement Learning)は、マルチエージェントシステム分野における幅広い研究領域である。パラメータを共有しないMARLの独立学習者がいかにコミュニケーションできるかを検討する。この結果から, 独立エージェントは, 課題にも拘わらず, コミュニケーション戦略を学習できることが示唆された。
論文参考訳（メタデータ） (2024-01-26T18:42:01Z)
An In-Depth Analysis of Discretization Methods for Communication Learning using Backpropagation with Multi-Agent Reinforcement Learning [0.0]
本稿では,最先端の離散化手法と新しいアプローチを比較した。本稿では,DIALとCOMAに基づくコミュニケーション学習手法であるCOMA-DIALについて述べる。本報告では,ST-DRU法は, 異なる環境における識別方法のすべてにおいて, 最適な結果が得られることを示す。
論文参考訳（メタデータ） (2023-08-09T13:13:19Z)
GradSkip: Communication-Accelerated Local Gradient Methods with Better Computational Complexity [54.585248253601314]
本研究では,クライアントが通信前に複数の局所勾配型トレーニングステップを実行できるようにすることにより,通信コストの低減を目的とした分散最適化アルゴリズムのクラスについて検討する。特に、修正したGradSkipは、同じ仮定の下で線形に収束し、通信複雑性が同じであることを示す。
論文参考訳（メタデータ） (2022-10-28T20:59:06Z)
MA-Dreamer: Coordination and communication through shared imagination [5.253168177256072]
エージェント中心およびグローバルな環境の微分可能なモデルの両方を利用するモデルベース手法であるMA-Dreamerを提案する。実験の結果,長期話者リスナータスクや強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerはコーディネートを効果的に活用する解を見出すことができた。
論文参考訳（メタデータ） (2022-04-10T13:54:26Z)
Learning Selective Communication for Multi-Agent Path Finding [18.703918339797283]
決定因果通信(Decision Causal Communication、DCC)は、エージェントが隣人を選択して通信を行うためのシンプルで効率的なモデルである。 DCCは大規模問題を扱うために分散実行に適している。
論文参考訳（メタデータ） (2021-09-12T03:07:20Z)
Fuzzy-Rough Nearest Neighbour Approaches for Emotion Detection in Tweets [1.7581155313656314]
ソーシャルメディアは、感情分析や感情認識といった様々なタスクで使用できる意味のあるデータの本質的な情報源である。ファジィ粗近傍(FRNN)に基づくSemEval-2018感情検出タスクのためのアプローチを開発する。我々の結果は、より複雑なディープラーニング手法に基づく最高のSemEvalソリューションと競合する。
論文参考訳（メタデータ） (2021-07-08T12:52:47Z)
TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文参考訳（メタデータ） (2021-04-14T17:02:18Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Discriminative Nearest Neighbor Few-Shot Intent Detection by Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。深部自己注意を伴う識別的近傍分類を提示する。自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文参考訳（メタデータ） (2020-10-25T00:39:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。