論文の概要: Optimally Deceiving a Learning Leader in Stackelberg Games
- arxiv url: http://arxiv.org/abs/2006.06566v1
- Date: Thu, 11 Jun 2020 16:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 14:52:24.731363
- Title: Optimally Deceiving a Learning Leader in Stackelberg Games
- Title(参考訳): Stackelbergゲームにおける学習リーダの最適決定
- Authors: Georgios Birmpas, Jiarui Gan, Alexandros Hollender, Francisco J.
Marmolejo-Coss\'io, Ninad Rajgopal, Alexandros A. Voudouris
- Abstract要約: MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
- 参考スコア(独自算出の注目度): 123.14187606686006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent results in the ML community have revealed that learning algorithms
used to compute the optimal strategy for the leader to commit to in a
Stackelberg game, are susceptible to manipulation by the follower. Such a
learning algorithm operates by querying the best responses or the payoffs of
the follower, who consequently can deceive the algorithm by responding as if
his payoffs were much different than what they actually are. For this strategic
behavior to be successful, the main challenge faced by the follower is to
pinpoint the payoffs that would make the learning algorithm compute a
commitment so that best responding to it maximizes the follower's utility,
according to his true payoffs. While this problem has been considered before,
the related literature only focused on the simplified scenario in which the
payoff space is finite, thus leaving the general version of the problem
unanswered. In this paper, we fill in this gap, by showing that it is always
possible for the follower to compute (near-)optimal payoffs for various
scenarios about the learning interaction between leader and follower.
- Abstract(参考訳): mlコミュニティの最近の結果は、stackelbergゲームでリーダーがコミットする最適な戦略を計算するのに使われる学習アルゴリズムが、従者による操作の影響を受けやすいことを明らかにしている。
このような学習アルゴリズムは、フォロワーのベストレスポンスや報酬をクエリすることで動作し、その結果、その報酬が実際のものと大きく異なるかのように応答することでアルゴリズムを欺くことができる。
この戦略的な行動が成功するためには、学習アルゴリズムがコミットメントを計算させ、それに対する最善の反応がフォロワーの効用を最大化する報酬を、彼の真の報酬によって特定することが主な課題である。
この問題は以前にも検討されてきたが、関連する文献では、ペイオフ空間が有限であるような単純なシナリオにのみ焦点が当てられている。
本稿では,このギャップを埋めるために,リーダとフォロワー間の学習相互作用に関するさまざまなシナリオに対して,フォロワーが(ほぼ)最適報酬を計算できることを示し,そのギャップを埋める。
関連論文リスト
- Stackelberg Batch Policy Learning [3.5426153040167754]
バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。
そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
論文 参考訳(メタデータ) (2023-09-28T06:18:34Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Contextual Bandits and Imitation Learning via Preference-Based Active
Queries [17.73844193143454]
本研究では,学習者が実行された行動報酬の直接的な知識を欠いている文脈的包帯と模倣学習の問題を考察する。
その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。
学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
論文 参考訳(メタデータ) (2023-07-24T16:36:04Z) - Follower Agnostic Methods for Stackelberg Games [14.143502615941648]
我々は,複数のフォロワーを対象とするオンラインStackelbergゲームにおいて,フォロワーに依存しない方法で効率よく解決するアルゴリズムを提案する。
私たちのアプローチは、リーダがフォロワーのユーティリティ機能や戦略空間について知識を持っていない場合でも機能します。
論文 参考訳(メタデータ) (2023-02-02T21:21:14Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Online Linear Optimization with Many Hints [72.4277628722419]
本研究では,学習者が決定に先立って各ラウンドでK$"hint"ベクトルにアクセス可能なオンライン線形最適化(OLO)問題について検討する。
この設定では、コストベクトルと正の相関を持つ$K$ヒントの凸結合が存在する場合、対数後悔を求めるアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-10-06T23:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。