論文の概要: Computing the optimal distributionally-robust strategy to commit to
- arxiv url: http://arxiv.org/abs/2209.07647v1
- Date: Thu, 15 Sep 2022 23:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 13:25:47.828408
- Title: Computing the optimal distributionally-robust strategy to commit to
- Title(参考訳): コミットすべき最適分散ロバスト戦略の計算
- Authors: Sai Mali Ananthanarayanan and Christian Kroer
- Abstract要約: 分布的に不安定なスタックルバーグ均衡は、常に幅広い不確実性モデルにわたって存在することを示す。
そこで我々は,分散ロバストな強いスタックルバーグ均衡を計算するための2つのアルゴリズムを提案する。
実験は,従来のStackelbergゲーム上でのアルゴリズムのトラクタビリティを裏付けるものである。
- 参考スコア(独自算出の注目度): 32.1464237233989
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Stackelberg game model, where a leader commits to a strategy and the
follower best responds, has found widespread application, particularly to
security problems. In the security setting, the goal is for the leader to
compute an optimal strategy to commit to, in order to protect some asset. In
many of these applications, the parameters of the follower utility model are
not known with certainty. Distributionally-robust optimization addresses this
issue by allowing a distribution over possible model parameters, where this
distribution comes from a set of possible distributions. The goal is to
maximize the expected utility with respect to the worst-case distribution. We
initiate the study of distributionally-robust models for computing the optimal
strategy to commit to. We consider the case of normal-form games with
uncertainty about the follower utility model. Our main theoretical result is to
show that a distributionally-robust Stackelberg equilibrium always exists
across a wide array of uncertainty models. For the case of a finite set of
possible follower utility functions we present two algorithms to compute a
distributionally-robust strong Stackelberg equilibrium (DRSSE) using
mathematical programs. Next, in the general case where there is an infinite
number of possible follower utility functions and the uncertainty is
represented by a Wasserstein ball around a finitely-supported nominal
distribution, we give an incremental mixed-integer-programming-based algorithm
for computing the optimal distributionally-robust strategy. Experiments
substantiate the tractability of our algorithm on a classical Stackelberg game,
showing that our approach scales to medium-sized games.
- Abstract(参考訳): stackelbergのゲームモデルは、リーダーが戦略にコミットし、フォロー者が最善の反応をするが、特にセキュリティ問題に対して広く応用されている。
セキュリティ設定において、ゴールは、ある資産を保護するために、リーダーがコミットする最適な戦略を計算することである。
これらのアプリケーションの多くでは、従属ユーティリティモデルのパラメータは確実には分かっていない。
分散ロバスト最適化は、この分布が可能な分布の集合から来るモデルパラメータの分布を許容することでこの問題に対処する。
目標は、最悪のケースの分布に関して、期待されるユーティリティを最大化することである。
我々は, 最適戦略を計算するための分散ロバストモデルの研究を開始する。
従属ユーティリティモデルに不確実性のある正規形式ゲームの場合を考える。
我々の理論の主な結果は、分布論的にロバストなスタックルバーグ平衡が常に幅広い不確実性モデルにわたって存在することを示すことである。
有限組の追従ユーティリティ関数の場合、数学的プログラムを用いて分布的に損なわれる強いスタックルバーグ均衡(DRSSE)を計算する2つのアルゴリズムを示す。
次に、無限個のフォロワー効用関数が存在し、不確実性が有限支持な名目分布の周りでワッサーシュタイン球で表される場合、最適分布ロバスト戦略を計算するためのインクリメンタルな混合整数プログラミングに基づくアルゴリズムを与える。
実験は古典的stackelbergゲームにおけるアルゴリズムの扱いやすさを実証し,中規模ゲームへのアプローチを示唆する。
関連論文リスト
- Distributionally Robust Skeleton Learning of Discrete Bayesian Networks [9.46389554092506]
我々は、潜在的に破損したデータから一般的な離散ベイズネットワークの正確なスケルトンを学習する問題を考察する。
本稿では,有界ワッサーシュタイン距離(KL)における分布群に対する最も有害なリスクを,経験的分布へのKL分散を最適化することを提案する。
本稿では,提案手法が標準正規化回帰手法と密接に関連していることを示す。
論文 参考訳(メタデータ) (2023-11-10T15:33:19Z) - Generalized Schrödinger Bridge Matching [54.171931505066]
一般化Schr"odinger Bridge (GSB) 問題設定は、機械学習の内外を問わず、多くの科学領域で一般的である。
我々は最近の進歩に触発された新しいマッチングアルゴリズムである一般化シュリンガーブリッジマッチング(GSBM)を提案する。
このような一般化は条件最適制御の解法として、変分近似を用いることができることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:42:11Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T16:33:54Z) - Wrapped Distributions on homogeneous Riemannian manifolds [58.720142291102135]
パラメータ、対称性、モダリティなどの分布の性質の制御は、フレキシブルな分布の族を生み出す。
変動型オートエンコーダと潜在空間ネットワークモデル内で提案した分布を利用して,我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2022-04-20T21:25:21Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - A Convergent and Dimension-Independent Min-Max Optimization Algorithm [32.492526162436405]
min-playerがパラメータを更新するために使用する分布は、滑らかで非凹凸関数に依存していることを示す。
我々のアルゴリズムは、繰り返しに依存しない多くの反復において近似的な局所平衡に収束する。
論文 参考訳(メタデータ) (2020-06-22T16:11:30Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。