論文の概要: Sample-Efficient Multi-Agent RL: An Optimization Perspective
- arxiv url: http://arxiv.org/abs/2310.06243v1
- Date: Tue, 10 Oct 2023 01:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 02:06:35.615995
- Title: Sample-Efficient Multi-Agent RL: An Optimization Perspective
- Title(参考訳): サンプル効率の高いマルチエージェントrl:最適化の展望
- Authors: Nuoya Xiong, Zhihan Liu, Zhaoran Wang, Zhuoran Yang
- Abstract要約: 一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
- 参考スコア(独自算出の注目度): 103.35353196535544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study multi-agent reinforcement learning (MARL) for the general-sum Markov
Games (MGs) under the general function approximation. In order to find the
minimum assumption for sample-efficient learning, we introduce a novel
complexity measure called the Multi-Agent Decoupling Coefficient (MADC) for
general-sum MGs. Using this measure, we propose the first unified algorithmic
framework that ensures sample efficiency in learning Nash Equilibrium, Coarse
Correlated Equilibrium, and Correlated Equilibrium for both model-based and
model-free MARL problems with low MADC. We also show that our algorithm
provides comparable sublinear regret to the existing works. Moreover, our
algorithm combines an equilibrium-solving oracle with a single objective
optimization subprocedure that solves for the regularized payoff of each
deterministic joint policy, which avoids solving constrained optimization
problems within data-dependent constraints (Jin et al. 2020; Wang et al. 2023)
or executing sampling procedures with complex multi-objective optimization
problems (Foster et al. 2023), thus being more amenable to empirical
implementation.
- Abstract(参考訳): 一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
サンプル効率学習の最小仮定を求めるため,汎用MGのためのマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
本手法を用いて,MADCが低いモデルベースおよびモデルフリーのMARL問題に対して,Nash平衡,粗相関平衡,および相関平衡の学習において,サンプル効率を確保するための最初の統一アルゴリズムフレームワークを提案する。
また、我々のアルゴリズムは既存の研究に匹敵するサブ線形後悔を与えることを示した。
さらに, このアルゴリズムでは, データ依存的制約(Jin et al. 2020; Wang et al. 2023)内での制約付き最適化問題の解決や, 複雑な多目的最適化問題(Foster et al. 2023)によるサンプリング手順の実行を回避し, 各決定論的共同政策の正規化ペイオフを解消する単一目的最適化サブプロデューサと平衡解オラクルを組み合わせる。
関連論文リスト
- Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Expensive Multi-Objective Bayesian Optimization Based on Diffusion Models [17.19004913553654]
多目的ベイズ最適化(MOBO)は、様々な高価な多目的最適化問題(EMOP)において有望な性能を示した。
高価なMOBOのための合成拡散モデルに基づくパレートセット学習アルゴリズム,すなわちCDM-PSLを提案する。
提案アルゴリズムは,様々な最先端MOBOアルゴリズムと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-05-14T14:55:57Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Efficient Alternating Minimization Solvers for Wyner Multi-View
Unsupervised Learning [0.0]
本稿では,計算効率のよい解法の開発を可能にする2つの新しい定式化法を提案する。
提案した解法は, 計算効率, 理論的収束保証, ビュー数による局所最小値複雑性, 最先端技術と比較して, 例外的な精度を提供する。
論文 参考訳(メタデータ) (2023-03-28T10:17:51Z) - Saddle Point Optimization with Approximate Minimization Oracle and its
Application to Robust Berthing Control [7.347989843033034]
本稿では,最小化問題を大まかに解決するオラクルのみに依存するサドル点最適化手法を提案する。
我々は、その収束特性を強い凸-凹問題で解析し、その線形収束性を大域的なmin-maxサドル点へ示す。
1+1)-CMA-ES を最小化オラクル、すなわち Adversarial-CMA-ES として開発した手法の実装は、テスト問題に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-05-25T00:08:47Z) - Compositionality of Linearly Solvable Optimal Control in Networked
Multi-Agent Systems [27.544923751902807]
マルチエージェントシステム(MAS)における学習されたコンポーネントタスクから未学習の複合タスクへの最適制御則の一般化手法について議論する。
提案手法は, 離散時間と連続時間の両方において, 協調MASフレームワーク内で同時に制御動作の構成性と最適性を実現する。
論文 参考訳(メタデータ) (2020-09-28T20:21:48Z) - Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning [63.64636047748605]
一般的なマルチステップMAMLアルゴリズムに対して収束保証を提供するための新しい理論フレームワークを開発する。
特に,本研究の結果は,収束を保証するためには,内部段階のステップを逆比例して$N$の内段ステップを選択する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T19:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。