論文の概要: Thompson sampling for linear quadratic mean-field teams
- arxiv url: http://arxiv.org/abs/2011.04686v1
- Date: Mon, 9 Nov 2020 19:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 02:45:38.377607
- Title: Thompson sampling for linear quadratic mean-field teams
- Title(参考訳): 線形二次平均場チームに対するトンプソンサンプリング
- Authors: Mukul Gagrani, Sagar Sudhakara, Aditya Mahajan, Ashutosh Nayyar and Yi
Ouyang
- Abstract要約: エージェント間で動的およびコストが結合される未知のマルチエージェント線形二次系(LQ)の最適制御について検討する。
我々は,システムモデルの構造を活かした新しいトンプソンサンプリング学習アルゴリズムを提案し,時間軸に異なる種類のエージェントを持つシステムに対してベイズが提案したアルゴリズムを,エージェントの総数に関係なく$T$ is $tildemathcalO big( |M|1.5 sqrtT big)$で後悔していることを示す。
- 参考スコア(独自算出の注目度): 3.957353452014781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider optimal control of an unknown multi-agent linear quadratic (LQ)
system where the dynamics and the cost are coupled across the agents through
the mean-field (i.e., empirical mean) of the states and controls. Directly
using single-agent LQ learning algorithms in such models results in regret
which increases polynomially with the number of agents. We propose a new
Thompson sampling based learning algorithm which exploits the structure of the
system model and show that the expected Bayesian regret of our proposed
algorithm for a system with agents of $|M|$ different types at time horizon $T$
is $\tilde{\mathcal{O}} \big( |M|^{1.5} \sqrt{T} \big)$ irrespective of the
total number of agents, where the $\tilde{\mathcal{O}}$ notation hides
logarithmic factors in $T$. We present detailed numerical experiments to
illustrate the salient features of the proposed algorithm.
- Abstract(参考訳): 我々は、未知のマルチエージェント線形二次系(lq)システムの最適制御について検討し、状態と制御の平均場(すなわち経験平均)を通じて、ダイナミクスとコストをエージェント間で結合する。
このようなモデルで単一エージェントLQ学習アルゴリズムを直接使用すると、エージェントの数が多項式的に増加することを後悔する。
我々は,システムモデルの構造を生かした新しいトンプソンサンプリングベースの学習アルゴリズムを提案するとともに,提案するアルゴリズムが推定されるベイズ的後悔を時間軸で異なる型を持つシステムに対して示す。$t$は$\tilde{\mathcal{o}} \big( |m|^{1.5} \sqrt{t} \big)$ エージェントの総数に関係なく,$\tilde{\mathcal{o}}$記法が$t$の対数因子を隠蔽する。
本稿では,提案アルゴリズムの健全な特徴を説明するための数値実験について述べる。
関連論文リスト
- Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Quantum option pricing via the Karhunen-Lo\`{e}ve expansion [11.698830761241107]
我々は、その基盤となる資産が幾何学的ブラウン運動によってモデル化されるような、T$以上のアジアオプションを個別に監視する問題を考える。
T$と1/epsilon$の2つの量子アルゴリズムを提供するが、$epsilon$は加法近似誤差である。
論文 参考訳(メタデータ) (2024-02-15T17:37:23Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Computationally Efficient Horizon-Free Reinforcement Learning for Linear
Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。
我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。
これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文 参考訳(メタデータ) (2022-05-23T17:59:18Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Scalable regret for learning to control network-coupled subsystems with
unknown dynamics [5.670584589057048]
相互接続されたサブシステムを見ることは、サブシステムの数とともに超直線的に増加する後悔をもたらす。
本稿では,基礎となるネットワークの構造を活かした新しいトンプソンサンプリングに基づく学習アルゴリズムを提案する。
提案アルゴリズムの期待された後悔は$tildemathcalO big(n sqrtT big)$, $n$はサブシステムの数, $T$は時間軸, $tildemathcalO(cdot)$表記は$nで対数項を隠していることを示す。
論文 参考訳(メタデータ) (2021-08-18T04:45:34Z) - Towards General Function Approximation in Zero-Sum Markov Games [126.58493169301012]
本稿では,同時移動を伴う2プレーヤゼロサム有限ホライゾンマルコフゲームについて考察する。
分離された設定とコーディネートされた設定の両方の効率的なアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2021-07-30T15:25:13Z) - Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems [3.9599054392856488]
マルチエージェント強化学習(MARL)における二次解析の課題
補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。
我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
論文 参考訳(メタデータ) (2020-01-27T23:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。