Fugu-MT 論文翻訳(概要): Optimally Deceiving a Learning Leader in Stackelberg Games

論文の概要: Optimally Deceiving a Learning Leader in Stackelberg Games

arxiv url: http://arxiv.org/abs/2006.06566v1
Date: Thu, 11 Jun 2020 16:18:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 14:52:24.731363
Title: Optimally Deceiving a Learning Leader in Stackelberg Games
Title（参考訳）: Stackelbergゲームにおける学習リーダの最適決定
Authors: Georgios Birmpas, Jiarui Gan, Alexandros Hollender, Francisco J. Marmolejo-Coss\'io, Ninad Rajgopal, Alexandros A. Voudouris
Abstract要約: MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
参考スコア（独自算出の注目度）: 123.14187606686006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent results in the ML community have revealed that learning algorithms used to compute the optimal strategy for the leader to commit to in a Stackelberg game, are susceptible to manipulation by the follower. Such a learning algorithm operates by querying the best responses or the payoffs of the follower, who consequently can deceive the algorithm by responding as if his payoffs were much different than what they actually are. For this strategic behavior to be successful, the main challenge faced by the follower is to pinpoint the payoffs that would make the learning algorithm compute a commitment so that best responding to it maximizes the follower's utility, according to his true payoffs. While this problem has been considered before, the related literature only focused on the simplified scenario in which the payoff space is finite, thus leaving the general version of the problem unanswered. In this paper, we fill in this gap, by showing that it is always possible for the follower to compute (near-)optimal payoffs for various scenarios about the learning interaction between leader and follower.
Abstract（参考訳）: mlコミュニティの最近の結果は、stackelbergゲームでリーダーがコミットする最適な戦略を計算するのに使われる学習アルゴリズムが、従者による操作の影響を受けやすいことを明らかにしている。このような学習アルゴリズムは、フォロワーのベストレスポンスや報酬をクエリすることで動作し、その結果、その報酬が実際のものと大きく異なるかのように応答することでアルゴリズムを欺くことができる。この戦略的な行動が成功するためには、学習アルゴリズムがコミットメントを計算させ、それに対する最善の反応がフォロワーの効用を最大化する報酬を、彼の真の報酬によって特定することが主な課題である。この問題は以前にも検討されてきたが、関連する文献では、ペイオフ空間が有限であるような単純なシナリオにのみ焦点が当てられている。本稿では,このギャップを埋めるために,リーダとフォロワー間の学習相互作用に関するさまざまなシナリオに対して,フォロワーが(ほぼ)最適報酬を計算できることを示し,そのギャップを埋める。

関連論文リスト

Learning to Steer Learners in Games [13.843722297585158]
ゲームにおける繰り返しの相互作用を通じて学習アルゴリズムを活用することの問題点を考察する。まず,学習者が非学習アルゴリズムの一般からアルゴリズムを使用していることを知っていれば,これは不可能であることを示す。学習者のアルゴリズムが、既知の正則化器とステップサイズで上昇したミラーを解析することにより、より小さなクラスから引き出される場合、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2025-02-28T06:43:15Z)
Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information [57.287431079644705]
そこで我々は,Stackelbergゲームにおけるオンライン学習の問題について,リーダーとフォロワーの列の側情報を用いて検討した。我々は,リーダに対する学習アルゴリズムを提供し,盗聴フィードバックの下でO(T1/2)$後悔を達成する。
論文参考訳（メタデータ） (2025-01-31T22:40:57Z)
Stackelberg Batch Policy Learning [3.5426153040167754]
バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
論文参考訳（メタデータ） (2023-09-28T06:18:34Z)
Actions Speak What You Want: Provably Sample-Efficient Reinforcement Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文参考訳（メタデータ） (2023-07-26T10:24:17Z)
Contextual Bandits and Imitation Learning via Preference-Based Active Queries [17.73844193143454]
本研究では,学習者が実行された行動報酬の直接的な知識を欠いている文脈的包帯と模倣学習の問題を考察する。その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
論文参考訳（メタデータ） (2023-07-24T16:36:04Z)
Follower Agnostic Methods for Stackelberg Games [14.143502615941648]
我々は,複数のフォロワーを対象とするオンラインStackelbergゲームにおいて,フォロワーに依存しない方法で効率よく解決するアルゴリズムを提案する。私たちのアプローチは、リーダがフォロワーのユーティリティ機能や戦略空間について知識を持っていない場合でも機能します。
論文参考訳（メタデータ） (2023-02-02T21:21:14Z)
No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文参考訳（メタデータ） (2022-02-10T01:07:57Z)
Adversarial Training as Stackelberg Game: An Unrolled Optimization Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。 Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文参考訳（メタデータ） (2021-04-11T00:44:57Z)
Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文参考訳（メタデータ） (2021-02-13T12:57:51Z)
Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文参考訳（メタデータ） (2021-01-31T16:49:07Z)
Online Linear Optimization with Many Hints [72.4277628722419]
本研究では,学習者が決定に先立って各ラウンドでK$"hint"ベクトルにアクセス可能なオンライン線形最適化(OLO)問題について検討する。この設定では、コストベクトルと正の相関を持つ$K$ヒントの凸結合が存在する場合、対数後悔を求めるアルゴリズムを考案する。
論文参考訳（メタデータ） (2020-10-06T23:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。