論文の概要: A Deeper Understanding of State-Based Critics in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.01221v1
- Date: Mon, 3 Jan 2022 14:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 13:36:18.913014
- Title: A Deeper Understanding of State-Based Critics in Multi-Agent
Reinforcement Learning
- Title(参考訳): 多エージェント強化学習における国家批判の深い理解
- Authors: Xueguang Lyu, Andrea Baisero, Yuchen Xiao, Christopher Amato
- Abstract要約: 我々は、州ベースの批評家が政策推定に偏見を導入し、アルゴリズムの保証を損なう可能性があることを示す。
また、州ベースの批判者が偏見を示さないとしても、共通の直観とは対照的に、大きな勾配のばらつきをもたらす可能性があることも示している。
- 参考スコア(独自算出の注目度): 17.36759906285316
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Centralized Training for Decentralized Execution, where training is done in a
centralized offline fashion, has become a popular solution paradigm in
Multi-Agent Reinforcement Learning. Many such methods take the form of
actor-critic with state-based critics, since centralized training allows access
to the true system state, which can be useful during training despite not being
available at execution time. State-based critics have become a common empirical
choice, albeit one which has had limited theoretical justification or analysis.
In this paper, we show that state-based critics can introduce bias in the
policy gradient estimates, potentially undermining the asymptotic guarantees of
the algorithm. We also show that, even if the state-based critics do not
introduce any bias, they can still result in a larger gradient variance,
contrary to the common intuition. Finally, we show the effects of the theories
in practice by comparing different forms of centralized critics on a wide range
of common benchmarks, and detail how various environmental properties are
related to the effectiveness of different types of critics.
- Abstract(参考訳): 集中型オフラインでトレーニングを行う分散実行のための集中型トレーニングは、マルチエージェント強化学習において一般的なソリューションパラダイムとなっている。
集中型トレーニングは、実行時に利用できないにもかかわらず、トレーニング中に有用である真のシステム状態へのアクセスを可能にするためである。
国家ベースの批評家は、理論上の正当化や分析が限られているにもかかわらず、共通の経験的選択となっている。
本稿では,国家に基づく批判者が政策勾配推定にバイアスを導入する可能性を示し,アルゴリズムの漸近的保証を損なう可能性がある。
また、州ベースの批判者が偏見を示さないとしても、共通の直観とは対照的に、大きな勾配のばらつきをもたらす可能性があることも示している。
最後に,様々な形態の中央集権的評論家を幅広い共通ベンチマークで比較し,様々な環境特性が様々なタイプの批判者の有効性にどのように関係しているかを詳述する。
関連論文リスト
- On Centralized Critics in Multi-Agent Reinforcement Learning [16.361249170514828]
分散実行のためのトレーニングは、マルチエージェント強化学習において一般的なアプローチとなっている。
我々は、部分的に観察可能な環境において、状態ベースの批評家を使うことの効果を分析する。
論文 参考訳(メタデータ) (2024-08-26T19:27:06Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Unbiased Asymmetric Actor-Critic for Partially Observable Reinforcement
Learning [17.48572546628464]
非対称アクター批判法は、州ベースの批評家を通じて歴史に基づく政策を訓練することで、そのような情報を利用する。
我々は、状態に基づく批評家を用いた非対称アクター批判法の理論を検証し、共通の変種の有効性を損なう根本的な問題を明らかにする。
理論的に音を残しながら状態情報を活用できる非バイアス非対称アクター・クリティックな変種を提案する。
論文 参考訳(メタデータ) (2021-05-25T05:18:44Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - Contrasting Centralized and Decentralized Critics in Multi-Agent
Reinforcement Learning [19.66161324837036]
エージェントが集中的な情報を使ってオフラインでトレーニングされる分散実行のためのトレーニングは、オンラインで分散的に実行されるが、マルチエージェント強化学習コミュニティで人気を集めている。
特に、中央集権的な批評家と非集権的なアクターによるアクター批判的手法は、この考え方の一般的な例である。
我々は、中央集権的・分権的な批評家のアプローチを分析し、批評家の選択が与える影響についてより深く理解する。
論文 参考訳(メタデータ) (2021-02-08T18:08:11Z) - Learning Value Functions in Deep Policy Gradients using Residual
Variance [22.414430270991005]
ポリシー勾配アルゴリズムは、多様な意思決定と制御タスクで成功している。
従来のアクター批判アルゴリズムは真値関数の適合には成功しない。
我々は、その平均値に対して状態の値を学ぶ新しい状態値関数近似(resp. state-action-value)を提供する。
論文 参考訳(メタデータ) (2020-10-09T08:57:06Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Controlling Overestimation Bias with Truncated Mixture of Continuous
Distributional Quantile Critics [65.51757376525798]
過大評価バイアスは、政治以外の学習を正確にするための主要な障害の1つである。
本稿では,連続制御環境における過大評価バイアスを軽減する新しい手法について検討する。
我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。
論文 参考訳(メタデータ) (2020-05-08T19:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。