論文の概要: ReMIX: Regret Minimization for Monotonic Value Function Factorization in
Multiagent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.05593v1
- Date: Sat, 11 Feb 2023 03:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 19:36:38.966729
- Title: ReMIX: Regret Minimization for Monotonic Value Function Factorization in
Multiagent Reinforcement Learning
- Title(参考訳): ReMIX:マルチエージェント強化学習におけるモノトニック値関数係数のレギュレット最小化
- Authors: Yongsheng Mei, Hanhan Zhou, Tian Lan
- Abstract要約: 単調関数クラスに対する非制限混合関数の最適射影について検討する。
ラグランジアン乗算法を用いて、閉形式最適射影重みを求める。
Predator-Prey および StarCraft Multiagent Challenge 環境における本手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 10.741140541225604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value function factorization methods have become a dominant approach for
cooperative multiagent reinforcement learning under a centralized training and
decentralized execution paradigm. By factorizing the optimal joint action-value
function using a monotonic mixing function of agents' utilities, these
algorithms ensure the consistency between joint and local action selections for
decentralized decision-making. Nevertheless, the use of monotonic mixing
functions also induces representational limitations. Finding the optimal
projection of an unrestricted mixing function onto monotonic function classes
is still an open problem. To this end, we propose ReMIX, formulating this
optimal projection problem for value function factorization as a regret
minimization over the projection weights of different state-action values. Such
an optimization problem can be relaxed and solved using the Lagrangian
multiplier method to obtain the close-form optimal projection weights. By
minimizing the resulting policy regret, we can narrow the gap between the
optimal and the restricted monotonic mixing functions, thus obtaining an
improved monotonic value function factorization. Our experimental results on
Predator-Prey and StarCraft Multiagent Challenge environments demonstrate the
effectiveness of our method, indicating the better capabilities of handling
environments with non-monotonic value functions.
- Abstract(参考訳): 価値関数分解法は,集中型トレーニングと分散実行パラダイムの下で,協調型マルチエージェント強化学習の主流となっている。
エージェントのユーティリティの単調混合関数を用いて、最適な共同動作値関数を分解することにより、分散意思決定のための共同動作選択と局所動作選択の一貫性を確保する。
それでも、単調混合関数の使用は表現的制限も引き起こす。
単調関数類への非制限混合関数の最適射影を求めることは、まだ未解決の問題である。
そこで本研究では,異なる状態作用値の投影重みに対する後悔の最小化として,値関数分解の最適投影問題を定式化したリミックスを提案する。
このような最適化問題はラグランジアン乗算法を用いて緩和して解くことができ、近接形式の最適射影重みが得られる。
結果の政策後悔を最小化することにより、最適と制限された単調混合関数の間のギャップを狭め、改良された単調値関数分解が得られる。
Predator-Prey と StarCraft Multiagent Challenge の環境実験の結果,本手法の有効性が示され,非単調な値関数を用いた環境処理能力の向上が示された。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning [17.644279061872442]
値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。
本稿では, 潜在的に最適な関節動作を認識し, トレーニング中の損失により高い重みを割り当てるPOWQmix(Possally Optimal Joint Actions Weighted Qmix)アルゴリズムを提案する。
行列ゲーム,難易度の高い捕食者前処理,およびStarCraft II Multi-Agent Challenge環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-13T03:27:35Z) - Moreau-Yoshida Variational Transport: A General Framework For Solving Regularized Distributional Optimization Problems [3.038642416291856]
クラス確率分布上に定義された複合目的関数を最小化する一般的な最適化問題を考える。
本稿では,正規分布最適化問題の解法として,モロー・吉田変分輸送(MYVT)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T01:14:42Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - No-Regret Constrained Bayesian Optimization of Noisy and Expensive
Hybrid Models using Differentiable Quantile Function Approximations [0.0]
Constrained Upper Quantile Bound (CUQB) は、制約近似を避けるための概念的に単純で決定論的アプローチである。
CUQBは制約のある場合と制約のない場合の両方において従来のベイズ最適化よりも著しく優れることを示す。
論文 参考訳(メタデータ) (2023-05-05T19:57:36Z) - Covariance Matrix Adaptation Evolutionary Strategy with Worst-Case
Ranking Approximation for Min--Max Optimization and its Application to
Berthing Control Tasks [19.263468901608785]
我々は mathbbX max_y in mathbbYf(x,y)$ の連続 min-max 最適化問題 $min_x を考える。
最悪の対象関数である$F(x) = max_y f(x,y)$を直接最小化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-28T15:50:56Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Information-theoretic Feature Selection via Tensor Decomposition and
Submodularity [38.05393186002834]
本稿では,全ての変数の結合PMFの低ランクテンソルモデルを導入し,複雑性を緩和し,与えられた特徴量の分類性能を最大化する手法として間接的ターゲットを提案する。
原目標変数の代わりにネイブベイズモデルの潜伏変数を間接的に予測することにより、濃度制約を受ける単調部分モジュラ函数として特徴選択問題を定式化することができる。
論文 参考訳(メタデータ) (2020-10-30T10:36:46Z) - A Multi-Agent Primal-Dual Strategy for Composite Optimization over
Distributed Features [52.856801164425086]
目的関数を滑らかな局所関数と凸(おそらく非滑らか)結合関数の和とするマルチエージェント共有最適化問題について検討する。
論文 参考訳(メタデータ) (2020-06-15T19:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。