論文の概要: Multiagent Value Iteration Algorithms in Dynamic Programming and
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2005.01627v1
- Date: Mon, 4 May 2020 16:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:37:38.725476
- Title: Multiagent Value Iteration Algorithms in Dynamic Programming and
Reinforcement Learning
- Title(参考訳): 動的プログラミングと強化学習におけるマルチエージェント値反復アルゴリズム
- Authors: Dimitri Bertsekas
- Abstract要約: 各段階における制御がいくつかの異なる決定から構成される無限水平動的プログラミング問題を考える。
以前の研究では、ポリシーの反復アルゴリズムを導入しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider infinite horizon dynamic programming problems, where the control
at each stage consists of several distinct decisions, each one made by one of
several agents. In an earlier work we introduced a policy iteration algorithm,
where the policy improvement is done one-agent-at-a-time in a given order, with
knowledge of the choices of the preceding agents in the order. As a result, the
amount of computation for each policy improvement grows linearly with the
number of agents, as opposed to exponentially for the standard
all-agents-at-once method. For the case of a finite-state discounted problem,
we showed convergence to an agent-by-agent optimal policy. In this paper, this
result is extended to value iteration and optimistic versions of policy
iteration, as well as to more general DP problems where the Bellman operator is
a contraction mapping, such as stochastic shortest path problems with all
policies being proper.
- Abstract(参考訳): 我々は無限大地平線動的計画問題を考える。各ステージの制御は複数のエージェントの1つによってなされる複数の異なる決定から成り立っている。
以前の研究で、ポリシー改善を所定の順序で1つのエージェント・ア・ア・タイムで行い、前のエージェントの選択を順番に知るポリシー反復アルゴリズムを導入しました。
その結果,標準all-agents-at-once法では指数関数的ではなく,各政策改善の計算量はエージェント数とともに線形に増加する。
有限状態割引問題の場合,エージェント・バイ・エージェントの最適方針に収束することを示した。
本稿では,この結果は,価値反復や政策反復の楽観的バージョン,さらにベルマン作用素が収縮写像であるより一般的なdp問題,例えば確率的最短経路問題,すべての方針が適切である場合などに拡張する。
関連論文リスト
- Approximate Linear Programming for Decentralized Policy Iteration in Cooperative Multi-agent Markov Decision Processes [5.842054972839244]
我々は,mエージェントを含む協調的マルチエージェントマルコフ決定過程について考察する。
マルチエージェント設定のポリシーイテレーションプロセスでは、アクションの数はエージェントの数とともに指数関数的に増加する。
本稿では,関数近似を用いた近似線形計画法を用いて,近似分散型ポリシー反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T14:14:13Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Verifiable Planning in Expected Reward Multichain MDPs [20.456052208569115]
エージェントの意思決定方針を導出する定常計画問題について検討する。
提案プログラムに対する最適解が、厳密な行動保証を伴う定常的な政策をもたらすことを証明した。
論文 参考訳(メタデータ) (2020-12-03T18:54:24Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。