論文の概要: Optimal control of robust team stochastic games
- arxiv url: http://arxiv.org/abs/2105.07405v1
- Date: Sun, 16 May 2021 10:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:22:17.515950
- Title: Optimal control of robust team stochastic games
- Title(参考訳): 頑健なチーム確率ゲームの最適制御
- Authors: Feng Huang, Ming Cao, and Long Wang
- Abstract要約: そこで我々は,選手が頑健な最適化アプローチを用いて意思決定を行う「ロバスト」チームゲームのモデルを提案する。
ガウス・シーデル修正政策反復の形で学習アルゴリズムを開発し,その収束性を証明する。
アルゴリズムの有効性を示す数値シミュレーションがいくつか提案されている。
- 参考スコア(独自算出の注目度): 5.425935258756356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In stochastic dynamic environments, team stochastic games have emerged as a
versatile paradigm for studying sequential decision-making problems of fully
cooperative multi-agent systems. However, the optimality of the derived
policies is usually sensitive to the model parameters, which are typically
unknown and required to be estimated from noisy data in practice. To mitigate
the sensitivity of the optimal policy to these uncertain parameters, in this
paper, we propose a model of "robust" team stochastic games, where players
utilize a robust optimization approach to make decisions. This model extends
team stochastic games to the scenario of incomplete information and meanwhile
provides an alternative solution concept of robust team optimality. To seek
such a solution, we develop a learning algorithm in the form of a Gauss-Seidel
modified policy iteration and prove its convergence. This algorithm, compared
with robust dynamic programming, not only possesses a faster convergence rate,
but also allows for using approximation calculations to alleviate the curse of
dimensionality. Moreover, some numerical simulations are presented to
demonstrate the effectiveness of the algorithm by generalizing the game model
of social dilemmas to sequential robust scenarios.
- Abstract(参考訳): 確率力学環境では、完全協調型マルチエージェントシステムの逐次決定問題を研究するための多目的パラダイムとして、チーム確率ゲームが出現している。
しかしながら、導出ポリシーの最適性は通常モデルパラメータに敏感であり、モデルパラメータは一般に未知であり、実際のノイズデータから推定する必要がある。
本稿では,これらの不確実なパラメータに対する最適ポリシーの感度を緩和するために,選手が頑健な最適化アプローチを用いて決定を行う「ロバスト」チーム確率ゲームモデルを提案する。
このモデルは、チームの確率ゲームを不完全な情報シナリオに拡張し、一方、堅牢なチームの最適性の代替ソリューション概念を提供する。
このような解を求めるために,ガウス・セイデル修正政策反復という形で学習アルゴリズムを開発し,その収束性を証明する。
このアルゴリズムは、ロバストな動的プログラミングと比較して、より高速な収束率を持つだけでなく、近似計算を用いて次元の呪いを軽減することができる。
さらに,ソーシャルジレンマのゲームモデルを逐次ロバストなシナリオに一般化することにより,アルゴリズムの有効性を示す数値シミュレーションを行った。
関連論文リスト
- Optimization and Optimizers for Adversarial Robustness [10.279287131070157]
本稿では,汎用的制約最適化解法と制約Foldingを融合した新しいフレームワークを提案する。
信頼性に関して、PWCFは、ソリューションの品質を評価するための定常度測定と実現可能性テストのソリューションを提供する。
さらに、損失、摂動モデル、最適化アルゴリズムの様々な組み合わせを用いて、これらの問題を解決するための解の異なるパターンについて検討する。
論文 参考訳(メタデータ) (2023-03-23T16:22:59Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - The Parametric Cost Function Approximation: A new approach for
multistage stochastic programming [4.847980206213335]
決定論的最適化モデルのパラメータ化バージョンは、プログラミングや動的プログラミングの複雑さを伴わずに不確実性を扱う効果的な方法であることを示す。
このアプローチは複雑な高次元状態変数を処理でき、シナリオツリーや値関数近似に関連する通常の近似を避けることができる。
論文 参考訳(メタデータ) (2022-01-01T23:25:09Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - Uncertainty Modelling in Risk-averse Supply Chain Systems Using
Multi-objective Pareto Optimization [0.0]
サプライチェーンモデリングにおける困難なタスクの1つは、不規則な変動に対して堅牢なモデルを構築することである。
我々は、不確実性を扱うためのパレート最適化(Pareto Optimization)という新しい手法を導入し、これらの不確実性のエントロピーをアプリオリ仮定の下で明示的にモデル化することで拘束する。
論文 参考訳(メタデータ) (2020-04-24T21:04:25Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。