論文の概要: Cooperative Multi-Agent Reinforcement Learning with Partial Observations
- arxiv url: http://arxiv.org/abs/2006.10822v2
- Date: Fri, 16 Jun 2023 23:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 08:27:35.682932
- Title: Cooperative Multi-Agent Reinforcement Learning with Partial Observations
- Title(参考訳): 部分観察による協調的マルチエージェント強化学習
- Authors: Yan Zhang, Michael M. Zavlanos
- Abstract要約: マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。
エージェントは、グローバルに蓄積された報酬の局所的な見積もりを使用して、ローカルポリシー機能を更新するために必要なローカルポリシー勾配を計算することができる。
本研究では, 一定段差の分散ゼロ階次ポリシ最適化手法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
- 参考スコア(独自算出の注目度): 16.895704973433382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a distributed zeroth-order policy optimization
method for Multi-Agent Reinforcement Learning (MARL). Existing MARL algorithms
often assume that every agent can observe the states and actions of all the
other agents in the network. This can be impractical in large-scale problems,
where sharing the state and action information with multi-hop neighbors may
incur significant communication overhead. The advantage of the proposed
zeroth-order policy optimization method is that it allows the agents to compute
the local policy gradients needed to update their local policy functions using
local estimates of the global accumulated rewards that depend on partial state
and action information only and can be obtained using consensus. Specifically,
to calculate the local policy gradients, we develop a new distributed
zeroth-order policy gradient estimator that relies on one-point
residual-feedback which, compared to existing zeroth-order estimators that also
rely on one-point feedback, significantly reduces the variance of the policy
gradient estimates improving, in this way, the learning performance. We show
that the proposed distributed zeroth-order policy optimization method with
constant stepsize converges to the neighborhood of a policy that is a
stationary point of the global objective function. The size of this
neighborhood depends on the agents' learning rates, the exploration parameters,
and the number of consensus steps used to calculate the local estimates of the
global accumulated rewards. Moreover, we provide numerical experiments that
demonstrate that our new zeroth-order policy gradient estimator is more
sample-efficient compared to other existing one-point estimators.
- Abstract(参考訳): 本稿では,マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。
既存のMARLアルゴリズムは、全てのエージェントがネットワーク内の他のエージェントの状態を観察できると仮定することが多い。
これは、状態とアクション情報をマルチホップの隣人と共有する大規模問題では現実的ではない。
提案手法の利点は、エージェントが局所的な政策関数を更新するために必要な局所的な政策勾配を、部分的状態と行動情報にのみ依存し、コンセンサスを用いて得られるグローバルな累積報酬の局所的な推定を用いて計算できることである。
具体的には, 局所的政策勾配を計算するために, 分散ゼロ次政策勾配推定器を開発し, 学習性能を向上させる政策勾配推定値のばらつきを著しく低減する。
本研究では, 一定段差の分散ゼロ階法最適化法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
この地区の大きさは、エージェントの学習率、探索パラメータ、グローバルに蓄積された報酬の局所的な見積もりを計算するために使用されるコンセンサスステップの数に依存する。
さらに,新しいゼロ階政策勾配推定器は,既存の1点推定器に比べて試料効率がよいことを示す数値実験を行った。
関連論文リスト
- Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation [59.01527054553122]
分散エージェントは、経験的システムの単一かつ非エポゾディックな実行から平均フィールドゲームにおける平衡を学ぶことができる。
既存の設定に関数近似を導入し,Munchausen Online Mirror Descent 方式で描画する。
また, エージェントが局所的な周辺地域に基づいて, グローバルな経験分布を推定できる新しいアルゴリズムも提供する。
論文 参考訳(メタデータ) (2024-08-21T13:32:46Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。