論文の概要: Contrasting Centralized and Decentralized Critics in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.04402v1
- Date: Mon, 8 Feb 2021 18:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 07:36:55.190835
- Title: Contrasting Centralized and Decentralized Critics in Multi-Agent
Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における集中的・分散的批判の対比
- Authors: Xueguang Lyu, Yuchen Xiao, Brett Daley, Christopher Amato
- Abstract要約: エージェントが集中的な情報を使ってオフラインでトレーニングされる分散実行のためのトレーニングは、オンラインで分散的に実行されるが、マルチエージェント強化学習コミュニティで人気を集めている。
特に、中央集権的な批評家と非集権的なアクターによるアクター批判的手法は、この考え方の一般的な例である。
我々は、中央集権的・分権的な批評家のアプローチを分析し、批評家の選択が与える影響についてより深く理解する。
- 参考スコア(独自算出の注目度): 19.66161324837036
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Centralized Training for Decentralized Execution, where agents are trained
offline using centralized information but execute in a decentralized manner
online, has gained popularity in the multi-agent reinforcement learning
community. In particular, actor-critic methods with a centralized critic and
decentralized actors are a common instance of this idea. However, the
implications of using a centralized critic in this context are not fully
discussed and understood even though it is the standard choice of many
algorithms. We therefore formally analyze centralized and decentralized critic
approaches, providing a deeper understanding of the implications of critic
choice. Because our theory makes unrealistic assumptions, we also empirically
compare the centralized and decentralized critic methods over a wide set of
environments to validate our theories and to provide practical advice. We show
that there exist misconceptions regarding centralized critics in the current
literature and show that the centralized critic design is not strictly
beneficial, but rather both centralized and decentralized critics have
different pros and cons that should be taken into account by algorithm
designers.
- Abstract(参考訳): 中央集中型実行のための集中型トレーニングは、エージェントが集中型情報を使用してオフラインでトレーニングされるが、オンラインの分散型実行は、マルチエージェント強化学習コミュニティで人気を得ている。
特に、中央集権的な批評家と分散型の俳優を持つ俳優批判的な方法は、このアイデアの一般的な例です。
しかし、この文脈において集中的批判を用いることの意味は、多くのアルゴリズムの標準選択であるにもかかわらず、十分に議論され、理解されていない。
そこで我々は,中央集権的かつ分散的な批判的アプローチを形式的に分析し,批判的選択の意義をより深く理解する。
我々の理論は非現実的な仮定をするので、我々は理論を検証し実践的なアドバイスを提供するために、幅広い環境にまたがる集中的かつ分散的な批判手法を実証的に比較する。
我々は,現在の文献に中央集権的批評家に関する誤解があることを示し,中央集権的批評家設計は厳密には有益ではなく,むしろ中央集権的かつ分散化された批評家は,アルゴリズム設計者が考慮すべき異なる長所と短所を持っていることを示した。
関連論文リスト
- On Centralized Critics in Multi-Agent Reinforcement Learning [16.361249170514828]
分散実行のためのトレーニングは、マルチエージェント強化学習において一般的なアプローチとなっている。
我々は、部分的に観察可能な環境において、状態ベースの批評家を使うことの効果を分析する。
論文 参考訳(メタデータ) (2024-08-26T19:27:06Z) - Decentralized Social Networks and the Future of Free Speech Online [4.249974621573213]
MastodonやBlueSkyのような分散ソーシャルネットワークは近年注目を集め、議論の的となっている。
本稿では、分散化プロジェクトによるオンラインコミュニケーションの展望を批判的に評価する。
フリースピーチの規範的理論を用いて、分散化設計がユーザの表現の自由をオンラインで促進するかどうかを検証している。
論文 参考訳(メタデータ) (2024-06-11T04:18:53Z) - Exploring the Robustness of Decentralized Training for Large Language
Models [51.41850749014054]
大規模な言語モデルの分散トレーニングは、この技術を民主化するための効果的な方法として現れてきた。
本稿では,3つの主要な視点から,分散学習の堅牢性について考察する。
論文 参考訳(メタデータ) (2023-12-01T04:04:03Z) - Communication-Efficient Actor-Critic Methods for Homogeneous Markov
Games [6.589813623221242]
政策共有は、特定のタスクにおける効率的な学習には不可欠であるが、理論上の正当化は欠如している。
コンセンサスに基づく最初の分散型アクター批判手法を開発した。
また,訓練中の通信コストを削減するために,分散型アクター批判手法に基づく実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-18T20:35:00Z) - Byzantine-Robust Decentralized Learning via ClippedGossip [61.03711813598128]
ビザンチン・ロバスト・コンセンサス最適化のためのClippedGossipアルゴリズムを提案する。
ClippedGossipの実証実験性能を多数の攻撃下で実証した。
論文 参考訳(メタデータ) (2022-02-03T12:04:36Z) - A Deeper Understanding of State-Based Critics in Multi-Agent
Reinforcement Learning [17.36759906285316]
我々は、州ベースの批評家が政策推定に偏見を導入し、アルゴリズムの保証を損なう可能性があることを示す。
また、州ベースの批判者が偏見を示さないとしても、共通の直観とは対照的に、大きな勾配のばらつきをもたらす可能性があることも示している。
論文 参考訳(メタデータ) (2022-01-03T14:51:30Z) - Consensus Control for Decentralized Deep Learning [72.50487751271069]
ディープラーニングモデルの分散トレーニングは、ネットワーク上のデバイス上での学習と、大規模計算クラスタへの効率的なスケーリングを可能にする。
理論上、トレーニングコンセンサス距離が重要な量よりも低い場合、分散化されたトレーニングは集中的なトレーニングよりも早く収束することを示す。
私たちの経験的な洞察は、パフォーマンス低下を軽減するために、より分散化されたトレーニングスキームの原則設計を可能にします。
論文 参考訳(メタデータ) (2021-02-09T13:58:33Z) - Taxonomy of Centralization in Public Blockchain Systems: A Systematic
Literature Review [2.1315215140430683]
Bitcoinは、一部の人からそのシステムに参加した人まで、金融システムの制御を委譲した。
この代表団は権力の分散化として知られ、生態系の強力なセキュリティメカニズムである。
近年の研究では、Bitcoinやガバナンスといった暗号通貨の中央集権化の傾向が観察されている。
論文 参考訳(メタデータ) (2020-09-26T08:58:48Z) - Controlling Overestimation Bias with Truncated Mixture of Continuous
Distributional Quantile Critics [65.51757376525798]
過大評価バイアスは、政治以外の学習を正確にするための主要な障害の1つである。
本稿では,連続制御環境における過大評価バイアスを軽減する新しい手法について検討する。
我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。
論文 参考訳(メタデータ) (2020-05-08T19:52:26Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Byzantine-resilient Decentralized Stochastic Gradient Descent [85.15773446094576]
分散学習システムのビザンチンレジリエンスに関する詳細な研究について述べる。
ビザンチンフォールトトレランスを用いた分散学習を支援する新しいアルゴリズムUBARを提案する。
論文 参考訳(メタデータ) (2020-02-20T05:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。