論文の概要: On Centralized Critics in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.14597v1
- Date: Mon, 26 Aug 2024 19:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 15:44:06.750371
- Title: On Centralized Critics in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における集中的批判について
- Authors: Xueguang Lyu, Andrea Baisero, Yuchen Xiao, Brett Daley, Christopher Amato,
- Abstract要約: 分散実行のためのトレーニングは、マルチエージェント強化学習において一般的なアプローチとなっている。
我々は、部分的に観察可能な環境において、状態ベースの批評家を使うことの効果を分析する。
- 参考スコア(独自算出の注目度): 16.361249170514828
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Centralized Training for Decentralized Execution where agents are trained offline in a centralized fashion and execute online in a decentralized manner, has become a popular approach in Multi-Agent Reinforcement Learning (MARL). In particular, it has become popular to develop actor-critic methods that train decentralized actors with a centralized critic where the centralized critic is allowed access global information of the entire system, including the true system state. Such centralized critics are possible given offline information and are not used for online execution. While these methods perform well in a number of domains and have become a de facto standard in MARL, using a centralized critic in this context has yet to be sufficiently analyzed theoretically or empirically. In this paper, we therefore formally analyze centralized and decentralized critic approaches, and analyze the effect of using state-based critics in partially observable environments. We derive theories contrary to the common intuition: critic centralization is not strictly beneficial, and using state values can be harmful. We further prove that, in particular, state-based critics can introduce unexpected bias and variance compared to history-based critics. Finally, we demonstrate how the theory applies in practice by comparing different forms of critics on a wide range of common multi-agent benchmarks. The experiments show practical issues such as the difficulty of representation learning with partial observability, which highlights why the theoretical problems are often overlooked in the literature.
- Abstract(参考訳): エージェントを集中的にオフラインで訓練し、分散的にオンラインに実行する分散実行のための集中訓練は、マルチエージェント強化学習(MARL)において一般的なアプローチとなっている。
特に、中央集権的な批評家が真のシステム状態を含むシステム全体のグローバル情報にアクセスできるようにするような、分散化されたアクターを訓練するアクター批判手法の開発が盛んになっている。
このような中央集権的な批評家はオフライン情報を与えることが可能であり、オンライン実行には使用されない。
これらの手法は多くの領域でよく機能し、MARLではデファクトスタンダードとなっているが、この文脈における集中的な批評家の使用は理論上あるいは経験上十分な分析がなされていない。
そこで本稿では,中央集権的・非集権的な批評家のアプローチを形式的に分析し,部分的に観察可能な環境における州ベースの批評家の活用の効果を分析する。
批判的中央集権化は厳密には有益ではなく、国家価値の使用は有害である。
さらに我々は、特に州ベースの批評家が、歴史ベースの批評家と比べて予期せぬ偏見と分散をもたらすことを証明している。
最後に、この理論が実際にどのように当てはまるかを、幅広いマルチエージェントベンチマークで異なる形式の批評家を比較して示す。
この実験は、部分的に可観測性を持つ表現学習の困難さなどの実践的な問題を示し、なぜ理論的な問題が文献でしばしば見過ごされるのかを浮き彫りにしている。
関連論文リスト
- Generalization Error Matters in Decentralized Learning Under Byzantine Attacks [22.589653582068117]
分散学習は、ピアツーピア信号および情報処理パラダイムとして人気を博している。
本稿では,Byzantine-Resilient decentralized gradient (DSGD)アルゴリズムの一般化誤差を初めて解析する。
論文 参考訳(メタデータ) (2024-07-11T16:12:53Z) - Towards Understanding Generalization and Stability Gaps between Centralized and Decentralized Federated Learning [57.35402286842029]
集中学習は常に分散学習(DFL)よりも一般化されていることを示す。
また、FLにおけるいくつかの一般的な設定について実験を行い、我々の理論解析が実験的な現象と一致し、いくつかの一般的なシナリオおよび実践シナリオにおいて文脈的に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-05T11:09:42Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Networked Communication for Decentralised Agents in Mean-Field Games [59.01527054553122]
平均フィールドゲームフレームワークにネットワーク通信を導入する。
当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
論文 参考訳(メタデータ) (2023-06-05T10:45:39Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - Communication-Efficient Actor-Critic Methods for Homogeneous Markov
Games [6.589813623221242]
政策共有は、特定のタスクにおける効率的な学習には不可欠であるが、理論上の正当化は欠如している。
コンセンサスに基づく最初の分散型アクター批判手法を開発した。
また,訓練中の通信コストを削減するために,分散型アクター批判手法に基づく実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-18T20:35:00Z) - A Deeper Understanding of State-Based Critics in Multi-Agent
Reinforcement Learning [17.36759906285316]
我々は、州ベースの批評家が政策推定に偏見を導入し、アルゴリズムの保証を損なう可能性があることを示す。
また、州ベースの批判者が偏見を示さないとしても、共通の直観とは対照的に、大きな勾配のばらつきをもたらす可能性があることも示している。
論文 参考訳(メタデータ) (2022-01-03T14:51:30Z) - Unbiased Asymmetric Actor-Critic for Partially Observable Reinforcement
Learning [17.48572546628464]
非対称アクター批判法は、州ベースの批評家を通じて歴史に基づく政策を訓練することで、そのような情報を利用する。
我々は、状態に基づく批評家を用いた非対称アクター批判法の理論を検証し、共通の変種の有効性を損なう根本的な問題を明らかにする。
理論的に音を残しながら状態情報を活用できる非バイアス非対称アクター・クリティックな変種を提案する。
論文 参考訳(メタデータ) (2021-05-25T05:18:44Z) - Consensus Control for Decentralized Deep Learning [72.50487751271069]
ディープラーニングモデルの分散トレーニングは、ネットワーク上のデバイス上での学習と、大規模計算クラスタへの効率的なスケーリングを可能にする。
理論上、トレーニングコンセンサス距離が重要な量よりも低い場合、分散化されたトレーニングは集中的なトレーニングよりも早く収束することを示す。
私たちの経験的な洞察は、パフォーマンス低下を軽減するために、より分散化されたトレーニングスキームの原則設計を可能にします。
論文 参考訳(メタデータ) (2021-02-09T13:58:33Z) - Contrasting Centralized and Decentralized Critics in Multi-Agent
Reinforcement Learning [19.66161324837036]
エージェントが集中的な情報を使ってオフラインでトレーニングされる分散実行のためのトレーニングは、オンラインで分散的に実行されるが、マルチエージェント強化学習コミュニティで人気を集めている。
特に、中央集権的な批評家と非集権的なアクターによるアクター批判的手法は、この考え方の一般的な例である。
我々は、中央集権的・分権的な批評家のアプローチを分析し、批評家の選択が与える影響についてより深く理解する。
論文 参考訳(メタデータ) (2021-02-08T18:08:11Z) - Controlling Overestimation Bias with Truncated Mixture of Continuous
Distributional Quantile Critics [65.51757376525798]
過大評価バイアスは、政治以外の学習を正確にするための主要な障害の1つである。
本稿では,連続制御環境における過大評価バイアスを軽減する新しい手法について検討する。
我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。
論文 参考訳(メタデータ) (2020-05-08T19:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。