Fugu-MT 論文翻訳(概要): Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning

論文の概要: Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning

arxiv url: http://arxiv.org/abs/2107.04050v2
Date: Tue, 9 May 2023 09:17:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-10 17:04:53.541096
Title: Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning
Title（参考訳）: 効率的なモデルベースマルチエージェント平均場強化学習
Authors: Barna P\'asztor, Ilija Bogunovic, Andreas Krause
Abstract要約: マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
参考スコア（独自算出の注目度）: 89.31889875864599
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning in multi-agent systems is highly challenging due to several factors including the non-stationarity introduced by agents' interactions and the combinatorial nature of their state and action spaces. In particular, we consider the Mean-Field Control (MFC) problem which assumes an asymptotically infinite population of identical agents that aim to collaboratively maximize the collective reward. In many cases, solutions of an MFC problem are good approximations for large systems, hence, efficient learning for MFC is valuable for the analogous discrete agent setting with many agents. Specifically, we focus on the case of unknown system dynamics where the goal is to simultaneously optimize for the rewards and learn from experience. We propose an efficient model-based reinforcement learning algorithm, $M^3-UCRL$, that runs in episodes, balances between exploration and exploitation during policy learning, and provably solves this problem. Our main theoretical contributions are the first general regret bounds for model-based reinforcement learning for MFC, obtained via a novel mean-field type analysis. To learn the system's dynamics, $M^3-UCRL$ can be instantiated with various statistical models, e.g., neural networks or Gaussian Processes. Moreover, we provide a practical parametrization of the core optimization problem that facilitates gradient-based optimization techniques when combined with differentiable dynamics approximation methods such as neural networks.
Abstract（参考訳）: エージェントの相互作用によってもたらされる非定常性や、状態と行動空間の組合せの性質など、マルチエージェントシステムでの学習は非常に困難である。特に,共同報酬の最大化を目的とした同一エージェントの漸近的に無限の集団を仮定する平均場制御(MFC)問題を考察する。多くの場合、MFC問題の解は大規模システムにとって良い近似であり、MFCの効率的な学習は多くのエージェントを持つ類似の離散エージェント設定に有用である。具体的には、報酬を最適化し、経験から学ぶことを目標とする未知のシステムダイナミクスのケースに注目します。そこで本研究では,効率的なモデルベース強化学習アルゴリズムである$m^3-ucrl$を提案する。我々の理論的な貢献は、新しい平均場型解析によって得られたMFCのモデルベース強化学習における最初の一般的な後悔境界である。システムのダイナミクスを学習するために、$M^3-UCRL$は、ニューラルネットワークやガウス過程などの様々な統計モデルでインスタンス化することができる。さらに,ニューラルネットワークなどの微分可能ダイナミクス近似法と組み合わせることで,勾配に基づく最適化技術を容易にするコア最適化問題の実用的パラメトリゼーションを提案する。

関連論文リスト

Efficient and Scalable Deep Reinforcement Learning for Mean Field Control Games [16.62770187749295]
平均場制御ゲーム(MFCG)は、無限に多くの相互作用するエージェントのシステムを解析するための強力な理論的枠組みを提供する。本稿では,MFCGの近似平衡解に対する拡張性のある深層強化学習(RL)手法を提案する。
論文参考訳（メタデータ） (2024-12-28T02:04:53Z)
M$^{2}$M: Learning controllable Multi of experts and multi-scale operators are the Partial Differential Equations need [43.534771810528305]
本稿では,PDEを効率的にシミュレートし,学習するためのマルチスケール・マルチエキスパート(M$2$M)ニューラル演算子のフレームワークを提案する。我々は、動的ルータポリシーのために、マルチエキスパートゲートネットワークをトレーニングするために、分断方式を採用する。提案手法は,専門家の選択権を決定する制御可能な事前ゲーティング機構を組み込んで,モデルの効率を向上させる。
論文参考訳（メタデータ） (2024-10-01T15:42:09Z)
Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文参考訳（メタデータ） (2024-06-14T07:16:18Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Addressing the issue of stochastic environments and local decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文参考訳（メタデータ） (2022-11-16T04:56:42Z)
Interfacing Finite Elements with Deep Neural Operators for Fast Multiscale Modeling of Mechanics Problems [4.280301926296439]
本研究では,機械学習を用いたマルチスケールモデリングのアイデアを探求し,高コストソルバの効率的なサロゲートとしてニューラル演算子DeepONetを用いる。 DeepONetは、きめ細かい解法から取得したデータを使って、基礎とおそらく未知のスケールのダイナミクスを学習してオフラインでトレーニングされている。精度とスピードアップを評価するための様々なベンチマークを提示し、特に時間依存問題に対する結合アルゴリズムを開発する。
論文参考訳（メタデータ） (2022-02-25T20:46:08Z)
Multi-Task Learning on Networks [0.0]
マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。確率分布のこの空間では、ワッサーシュタイン距離によって与えられる計量が与えられ、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。
論文参考訳（メタデータ） (2021-12-07T09:13:10Z)
An Efficient Application of Neuroevolution for Competitive Multiagent Learning [0.0]
NEATは、最高のパフォーマンスのニューラルネットワークアーキテクチャを得るために使われる一般的な進化戦略である。本稿では, NEATアルゴリズムを用いて, 変形したポンポンゲーム環境において, 競争力のあるマルチエージェント学習を実現する。
論文参考訳（メタデータ） (2021-05-23T10:34:48Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。