論文の概要: Robust Correlated Equilibrium: Definition and Computation
- arxiv url: http://arxiv.org/abs/2311.17592v1
- Date: Wed, 29 Nov 2023 12:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:16:44.935356
- Title: Robust Correlated Equilibrium: Definition and Computation
- Title(参考訳): ロバスト相関平衡:定義と計算
- Authors: Rahul Misra, Rafa{\l} Wisniewski, Carsten Skovmose Kalles{\o}e and
Manuela L. Bujorianu
- Abstract要約: 本研究は,N-player 有限ゲームにおいて,基本システムにおける時間的変動によるコストの変動について検討する。
相関平衡の定義を一般化するロバスト相関平衡の概念を提案する。
- 参考スコア(独自算出の注目度): 0.6554326244334868
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study N-player finite games with costs perturbed due to time-varying
disturbances in the underlying system and to that end we propose the concept of
Robust Correlated Equilibrium that generalizes the definition of Correlated
Equilibrium. Conditions under which the Robust Correlated Equilibrium exists
are specified and a decentralized algorithm for learning strategies that are
optimal in the sense of Robust Correlated Equilibrium is proposed. The primary
contribution of the paper is the convergence analysis of the algorithm and to
that end, we propose an extension of the celebrated Blackwell's Approachability
theorem to games with costs that are not just time-average as in the original
Blackwell's Approachability Theorem but also include time-average of previous
algorithm iterates. The designed algorithm is applied to a practical water
distribution network with pumps being the controllers and their costs being
perturbed by uncertain consumption by consumers. Simulation results show that
each controller achieves no regret and empirical distributions converge to the
Robust Correlated Equilibrium.
- Abstract(参考訳): そこで本研究では,n-player有限ゲームにおいて,基礎系の時間的変動によるコストの変動について検討し,そのために,相関均衡の定義を一般化したロバスト相関均衡の概念を提案する。
ロバスト相関平衡が存在する条件を特定し、ロバスト相関平衡の意味で最適である学習戦略の分散アルゴリズムを提案する。
本論文の主な貢献はアルゴリズムの収束解析であり、その目的のために、ブラックウェルのアプローチ可能性定理を、オリジナルのブラックウェルのアプローチ可能性定理のように時間平均ではなく、以前のアルゴリズムの時間平均を含むようなコストのゲームに拡張することを提案する。
設計したアルゴリズムは, ポンプを制御器とする実用的な配水ネットワークに適用され, そのコストは, 消費者の不確定な消費によって変動する。
シミュレーションの結果,各コントローラは後悔を得られず,経験分布はロバスト相関平衡に収束することがわかった。
関連論文リスト
- The Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本稿では,不完全な情報形式ゲームにおいて,摂動がFTRL(Follow-the-Regularized-Leader)アルゴリズムをどのように改善するかを検討する。
期待されるペイオフの摂動は、FTRL力学が近似平衡に達することを保証している。
最後に、FTRLは非サンプリングFTRLよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - Debiased Collaborative Filtering with Kernel-Based Causal Balancing [28.89858891537214]
本稿では,カーネル関数を適応的にバランスさせ,提案手法の一般化誤差境界を理論的に解析するアルゴリズムを提案する。
提案手法の有効性を実証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-04-30T14:43:51Z) - An Inexact Halpern Iteration with Application to Distributionally Robust
Optimization [9.529117276663431]
決定論的および決定論的収束設定におけるスキームの不正確な変種について検討する。
不正確なスキームを適切に選択することにより、(予想される)剰余ノルムの点において$O(k-1)収束率を許容することを示す。
論文 参考訳(メタデータ) (2024-02-08T20:12:47Z) - Near-Optimal Policy Optimization for Correlated Equilibrium in General-Sum Markov Games [44.95137108337898]
我々は、相関平衡を計算するために、ほぼ最適の$tildeO(T-1)$収束率を得る未結合のポリシー最適化アルゴリズムを提供する。
我々のアルゴリズムは2つの主要素(スムーズな値更新)と(楽観的で規則化されたリーダーアルゴリズムとログバリア正規化器)を組み合わせることで構築される。
論文 参考訳(メタデータ) (2024-01-26T23:13:47Z) - Convergence analysis of equilibrium methods for inverse problems [0.0]
平衡法のクラスに対して安定性と収束結果を提供する。
我々は、対称ブレグマン距離における収束率と安定性の推定を導出する。
収束解析によって新しいタイプの損失関数の設計が導かれることを示す。
論文 参考訳(メタデータ) (2023-06-02T10:22:33Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T16:33:54Z) - First-Order Algorithms for Nonlinear Generalized Nash Equilibrium
Problems [88.58409977434269]
非線形一般化ナッシュ均衡問題(NGNEP)における平衡計算の問題を考える。
我々の貢献は、2次ペナルティ法と拡張ラグランジアン法に基づく2つの単純な一階アルゴリズムフレームワークを提供することである。
これらのアルゴリズムに対する漸近的理論的保証を提供する。
論文 参考訳(メタデータ) (2022-04-07T00:11:05Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Continuous Regularized Wasserstein Barycenters [51.620781112674024]
正規化ワッサーシュタイン・バリセンタ問題に対する新しい双対定式化を導入する。
我々は、強い双対性を確立し、対応する主対関係を用いて、正規化された輸送問題の双対ポテンシャルを用いて暗黙的にバリセンターをパラメトリゼーションする。
論文 参考訳(メタデータ) (2020-08-28T08:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。