論文の概要: Efficient Reinforcement Learning for Global Decision Making in the
Presence of Local Agents at Scale
- arxiv url: http://arxiv.org/abs/2403.00222v1
- Date: Fri, 1 Mar 2024 01:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:36:32.957633
- Title: Efficient Reinforcement Learning for Global Decision Making in the
Presence of Local Agents at Scale
- Title(参考訳): 局所エージェントの存在下でのグローバル意思決定のための効率的強化学習
- Authors: Emile Anand, Guannan Qu
- Abstract要約: 多くの現地エージェントの存在下で,グローバルな意思決定のための強化学習について検討した。
学習されたポリシーは、サブサンプリングエージェントの数が増加するにつれて、$tildeO (1/sqrtk+epsilon_k,m)$の順序で最適ポリシーに収束することを示す。
- 参考スコア(独自算出の注目度): 6.015898117103069
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study reinforcement learning for global decision-making in the presence of
many local agents, where the global decision-maker makes decisions affecting
all local agents, and the objective is to learn a policy that maximizes the
rewards of both the global and the local agents. Such problems find many
applications, e.g. demand response, EV charging, queueing, etc. In this
setting, scalability has been a long-standing challenge due to the size of the
state/action space which can be exponential in the number of agents. This work
proposes the SUB-SAMPLE-Q algorithm where the global agent subsamples $k\leq n$
local agents to compute an optimal policy in time that is only exponential in
$k$, providing an exponential speedup from standard methods that are
exponential in $n$. We show that the learned policy converges to the optimal
policy in the order of $\tilde{O}(1/\sqrt{k}+\epsilon_{k,m})$ as the number of
sub-sampled agents $k$ increases, where $\epsilon_{k,m}$ is the Bellman noise.
We also conduct numerical simulations in a demand-response setting and a
queueing setting.
- Abstract(参考訳): 我々は,グローバル意思決定者がすべてのローカルエージェントに影響を与える意思決定を行う地域エージェントの存在下で,グローバル意思決定のための強化学習について検討し,グローバルエージェントとローカルエージェントの両方の報酬を最大化する政策を学ぶことを目的とする。
このような問題は、需要応答、EV充電、キューなど、多くのアプリケーションを見つけます。
この環境では、エージェント数で指数関数的な状態/アクション空間のサイズのため、スケーラビリティは長年にわたる課題であった。
この研究は、グローバルエージェントが$k\leq n$ローカルエージェントをサブサンプリングして、$k$の指数関数のみの最適なポリシーを計算するサブサンプルqアルゴリズムを提案し、$n$の指数関数的な標準メソッドからの指数関数的なスピードアップを提供する。
我々は、学習されたポリシーが$\tilde{O}(1/\sqrt{k}+\epsilon_{k,m})$の順序で最適ポリシーに収束することを示し、サブサンプルエージェントの数が$k$増加すると、$\epsilon_{k,m}$はベルマンノイズである。
また,要求応答設定と待ち行列設定において数値シミュレーションを行う。
関連論文リスト
- Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Scalable Multi-Agent Reinforcement Learning with General Utilities [30.960413388976438]
汎用性を備えた拡張型マルチエージェント強化学習(MARL)について検討する。
目的は、チーム内の各エージェントの完全な可観測性なしに、チームのローカルユーティリティ関数の平均を最大化する、ローカライズされたポリシーを見つけることである。
これは、完全な可観測性を必要としない汎用性を持つマルチエージェントRLに関する文献の最初の結果である。
論文 参考訳(メタデータ) (2023-02-15T20:47:43Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Global Convergence of Localized Policy Iteration in Networked
Multi-Agent Reinforcement Learning [25.747559058350557]
エージェントが与えられたネットワーク上で相互作用するマルチエージェント強化学習(MARL)問題について検討する。
エージェントの目標は、エントロピー規則化された長期報酬の平均を協調的に最大化することである。
次元の呪いを克服し,コミュニケーションを減らすために,ローカル情報のみを用いて,グローバルに近い最適政策を確実に学習するローカルポリシーイテレーション(LPI)を提案する。
論文 参考訳(メタデータ) (2022-11-30T15:58:00Z) - Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning [24.567125948995834]
フェデレーション強化学習は、N$エージェントが協力してグローバルモデルを学ぶためのフレームワークである。
この連立固定点問題の解法において, エージェントの綿密な協調によって, グローバルモデルのN$倍の高速化が期待できることを示す。
論文 参考訳(メタデータ) (2022-06-21T08:39:12Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - Asymptotic Convergence of Deep Multi-Agent Actor-Critic Algorithms [0.6961253535504979]
我々は,多エージェントDeep Deterministic Policy Gradient (DDPG)アルゴリズムの収束を保証する十分な条件を提案する。
これは、連続的なアクション空間を扱うためのDeep Reinforcement Learning(DeepRL)の最も人気のあるパラダイムの1つである。
論文 参考訳(メタデータ) (2022-01-03T10:33:52Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。