論文の概要: Optimally Deceiving a Learning Leader in Stackelberg Games
- arxiv url: http://arxiv.org/abs/2006.06566v1
- Date: Thu, 11 Jun 2020 16:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 14:52:24.731363
- Title: Optimally Deceiving a Learning Leader in Stackelberg Games
- Title(参考訳): Stackelbergゲームにおける学習リーダの最適決定
- Authors: Georgios Birmpas, Jiarui Gan, Alexandros Hollender, Francisco J.
Marmolejo-Coss\'io, Ninad Rajgopal, Alexandros A. Voudouris
- Abstract要約: MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
- 参考スコア(独自算出の注目度): 123.14187606686006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent results in the ML community have revealed that learning algorithms
used to compute the optimal strategy for the leader to commit to in a
Stackelberg game, are susceptible to manipulation by the follower. Such a
learning algorithm operates by querying the best responses or the payoffs of
the follower, who consequently can deceive the algorithm by responding as if
his payoffs were much different than what they actually are. For this strategic
behavior to be successful, the main challenge faced by the follower is to
pinpoint the payoffs that would make the learning algorithm compute a
commitment so that best responding to it maximizes the follower's utility,
according to his true payoffs. While this problem has been considered before,
the related literature only focused on the simplified scenario in which the
payoff space is finite, thus leaving the general version of the problem
unanswered. In this paper, we fill in this gap, by showing that it is always
possible for the follower to compute (near-)optimal payoffs for various
scenarios about the learning interaction between leader and follower.
- Abstract(参考訳): mlコミュニティの最近の結果は、stackelbergゲームでリーダーがコミットする最適な戦略を計算するのに使われる学習アルゴリズムが、従者による操作の影響を受けやすいことを明らかにしている。
このような学習アルゴリズムは、フォロワーのベストレスポンスや報酬をクエリすることで動作し、その結果、その報酬が実際のものと大きく異なるかのように応答することでアルゴリズムを欺くことができる。
この戦略的な行動が成功するためには、学習アルゴリズムがコミットメントを計算させ、それに対する最善の反応がフォロワーの効用を最大化する報酬を、彼の真の報酬によって特定することが主な課題である。
この問題は以前にも検討されてきたが、関連する文献では、ペイオフ空間が有限であるような単純なシナリオにのみ焦点が当てられている。
本稿では,このギャップを埋めるために,リーダとフォロワー間の学習相互作用に関するさまざまなシナリオに対して,フォロワーが(ほぼ)最適報酬を計算できることを示し,そのギャップを埋める。
関連論文リスト
- Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information [57.287431079644705]
そこで我々は,Stackelbergゲームにおけるオンライン学習の問題について,リーダーとフォロワーの列の側情報を用いて検討した。
我々は,リーダに対する学習アルゴリズムを提供し,盗聴フィードバックの下でO(T1/2)$後悔を達成する。
論文 参考訳(メタデータ) (2025-01-31T22:40:57Z) - Learning to Play Against Unknown Opponents [9.346742321348366]
本研究では,学習エージェントが非学習に制約されない場合に,最適な学習アルゴリズムを効率的に構築する方法を示す。
これらの結果は、最近開発された機械を用いて、学習アルゴリズムの分析をメニューとして知られる幾何学的対象のクラスに変換する。
論文 参考訳(メタデータ) (2024-12-24T09:05:06Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Follower Agnostic Methods for Stackelberg Games [14.143502615941648]
我々は,複数のフォロワーを対象とするオンラインStackelbergゲームにおいて,フォロワーに依存しない方法で効率よく解決するアルゴリズムを提案する。
私たちのアプローチは、リーダがフォロワーのユーティリティ機能や戦略空間について知識を持っていない場合でも機能します。
論文 参考訳(メタデータ) (2023-02-02T21:21:14Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Online Linear Optimization with Many Hints [72.4277628722419]
本研究では,学習者が決定に先立って各ラウンドでK$"hint"ベクトルにアクセス可能なオンライン線形最適化(OLO)問題について検討する。
この設定では、コストベクトルと正の相関を持つ$K$ヒントの凸結合が存在する場合、対数後悔を求めるアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-10-06T23:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。