論文の概要: Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.04050v1
- Date: Thu, 8 Jul 2021 18:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:54:15.146775
- Title: Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning
- Title(参考訳): 効率的なモデルベースマルチエージェント平均場強化学習
- Authors: Barna Pasztor, Ilija Bogunovic, Andreas Krause
- Abstract要約: 我々は,MFC(Mean-Field Control)を用いた対話エージェントの大量数の多いシステムに取り組む。
本稿では,モデルベース強化学習アルゴリズムである$textM3text-UCRL$を提案する。
我々の理論的な貢献は、新しい平均場型解析によって得られたMFCのモデルベースRLに対する最初の一般的な後悔境界である。
- 参考スコア(独自算出の注目度): 50.199446984662366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning in multi-agent systems is highly challenging due to the inherent
complexity introduced by agents' interactions. We tackle systems with a huge
population of interacting agents (e.g., swarms) via Mean-Field Control (MFC).
MFC considers an asymptotically infinite population of identical agents that
aim to collaboratively maximize the collective reward. Specifically, we
consider the case of unknown system dynamics where the goal is to
simultaneously optimize for the rewards and learn from experience. We propose
an efficient model-based reinforcement learning algorithm
$\text{M}^3\text{-UCRL}$ that runs in episodes and provably solves this
problem. $\text{M}^3\text{-UCRL}$ uses upper-confidence bounds to balance
exploration and exploitation during policy learning. Our main theoretical
contributions are the first general regret bounds for model-based RL for MFC,
obtained via a novel mean-field type analysis. $\text{M}^3\text{-UCRL}$ can be
instantiated with different models such as neural networks or Gaussian
Processes, and effectively combined with neural network policy learning. We
empirically demonstrate the convergence of $\text{M}^3\text{-UCRL}$ on the
swarm motion problem of controlling an infinite population of agents seeking to
maximize location-dependent reward and avoid congested areas.
- Abstract(参考訳): エージェントの相互作用によって引き起こされる固有の複雑さのため、マルチエージェントシステムでの学習は非常に難しい。
我々は、平均場制御(mfc)を介して相互作用する多数のエージェント(例えば群れ)を持つシステムに取り組む。
MFCは、同じエージェントの漸近的に無限の集団を、集団報酬を最大化することを目的としている。
具体的には,報奨を最適化し,経験から学ぶことを目標とする未知のシステムダイナミクスの事例について考察する。
そこで本研究では,効率的なモデルベース強化学習アルゴリズムである$\text{m}^3\text{-ucrl}$を提案する。
$\text{M}^3\text{-UCRL}$は、ポリシー学習中の探索とエクスプロイトのバランスをとるために、高信頼境界を使用する。
我々の理論的な貢献は、新しい平均場型解析によって得られたMFCのモデルベースRLに対する最初の一般的な後悔境界である。
$\text{m}^3\text{-ucrl}$ はニューラルネットワークやガウス過程のような異なるモデルでインスタンス化でき、ニューラルネットワークのポリシー学習と効果的に組み合わせられる。
我々は,位置情報依存的報酬の最大化と混雑領域の回避を求めるエージェントの無限集団を制御する群動問題に対する$\text{m}^3\text{-ucrl}$の収束を実証する。
関連論文リスト
- Model-Based RL for Mean-Field Games is not Statistically Harder than
Single-Agent RL [64.90038012690403]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Three-Way Trade-Off in Multi-Objective Learning: Optimization,
Generalization and Conflict-Avoidance [47.42067405054353]
MOL(Multi-objective Learning)は、機械学習の新興問題においてしばしば発生する問題である。
MOLにおける重要な課題の1つは、反復最適化プロセスにおける異なる目的間の潜在的な衝突である。
近年,MGDAやその変種など,MOLの動的重み付けアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2023-05-31T17:31:56Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Interfacing Finite Elements with Deep Neural Operators for Fast
Multiscale Modeling of Mechanics Problems [4.280301926296439]
本研究では,機械学習を用いたマルチスケールモデリングのアイデアを探求し,高コストソルバの効率的なサロゲートとしてニューラル演算子DeepONetを用いる。
DeepONetは、きめ細かい解法から取得したデータを使って、基礎とおそらく未知のスケールのダイナミクスを学習してオフラインでトレーニングされている。
精度とスピードアップを評価するための様々なベンチマークを提示し、特に時間依存問題に対する結合アルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-25T20:46:08Z) - Multi-Task Learning on Networks [0.0]
マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。
この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。
確率分布のこの空間では、ワッサーシュタイン距離によって与えられる計量が与えられ、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。
論文 参考訳(メタデータ) (2021-12-07T09:13:10Z) - An Efficient Application of Neuroevolution for Competitive Multiagent
Learning [0.0]
NEATは、最高のパフォーマンスのニューラルネットワークアーキテクチャを得るために使われる一般的な進化戦略である。
本稿では, NEATアルゴリズムを用いて, 変形したポンポンゲーム環境において, 競争力のあるマルチエージェント学習を実現する。
論文 参考訳(メタデータ) (2021-05-23T10:34:48Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。