論文の概要: Learning to Manipulate a Commitment Optimizer
- arxiv url: http://arxiv.org/abs/2302.11829v2
- Date: Sun, 26 Feb 2023 16:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 12:17:19.014752
- Title: Learning to Manipulate a Commitment Optimizer
- Title(参考訳): コミットメントオプティマイザを操作するための学習
- Authors: Yurong Chen, Xiaotie Deng, Jiarui Gan, Yuhao Li
- Abstract要約: 最近の研究によると、スタックルバーグのゲームでは、フォロワーは真のベストレスポンス行動から逸脱してリーダーを操作することができる。
これらの発見が示すリスクは、操作が依存する厳密な情報によってある程度軽減されているように見える。
まずは、フォロワーがリーダーの報酬に関する情報を与えられず、リーダーと対話して操作を学ばなければならないシナリオを考えます。
- 参考スコア(独自算出の注目度): 14.806314018261416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is shown in recent studies that in a Stackelberg game the follower can
manipulate the leader by deviating from their true best-response behavior. Such
manipulations are computationally tractable and can be highly beneficial for
the follower. Meanwhile, they may result in significant payoff losses for the
leader, sometimes completely defeating their first-mover advantage. A warning
to commitment optimizers, the risk these findings indicate appears to be
alleviated to some extent by a strict information advantage the manipulations
rely on. That is, the follower knows the full information about both players'
payoffs whereas the leader only knows their own payoffs. In this paper, we
study the manipulation problem with this information advantage relaxed. We
consider the scenario where the follower is not given any information about the
leader's payoffs to begin with but has to learn to manipulate by interacting
with the leader. The follower can gather necessary information by querying the
leader's optimal commitments against contrived best-response behaviors. Our
results indicate that the information advantage is not entirely indispensable
to the follower's manipulations: the follower can learn the optimal way to
manipulate in polynomial time with polynomially many queries of the leader's
optimal commitment.
- Abstract(参考訳): 最近の研究では、Stackelbergのゲームでは、フォロワーは真のベストレスポンス行動から逸脱してリーダーを操ることができることが示されている。
このような操作は計算可能であり、従者にとって非常に有益である。
一方、彼らはリーダーにとって大きな損失を被り、時にはファーストマウバーの優位を完全に破ることもある。
コミットメントオプティマイザへの警告として、これらの発見が示すリスクは、操作が依存する厳密な情報によってある程度軽減されているように見える。
つまり、フォロワーは両方の選手の報酬に関する完全な情報を知っているのに対し、リーダーは自分の報酬しか知らない。
本稿では,情報アドバンテージを緩和した操作問題について検討する。
我々は、まずはリーダーの報酬に関する情報をフォロワが与えず、リーダーと対話することで操作を学ぶ必要があるというシナリオを考えます。
フォロワーは、最善の応答行動に対するリーダーの最適なコミットメントを照会することで必要な情報を集めることができる。
その結果,情報アドバンテージは,従者の操作には必ずしも不可欠ではないことが示唆された。従者は,多項式時間において,リーダーの最適コミットメントを多項式的に多数のクエリで操作する最適な方法を学ぶことができる。
関連論文リスト
- Decentralized Online Learning in General-Sum Stackelberg Games [2.8659922790025463]
プレイヤーが分散的かつ戦略的に行動する一般のStackelbergゲームにおいて,オンライン学習問題を研究する。
我々は、フォロワーにとって、リーダーの行動にミオプティカルに最も反応することが、限られた情報設定にとって最良の戦略であることを示す。
後者の設定では、フォロワーに対する新たな操作戦略を設計し、最良の応答戦略に対して本質的な優位性を示す。
論文 参考訳(メタデータ) (2024-05-06T04:35:01Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - Commitment with Signaling under Double-sided Information Asymmetry [19.349072233281852]
この研究は、ベイジアン・スタックルバーグのゲームにおいて、両面の情報非対称性を考える。
我々は,リーダが実現した行動に関する部分的な情報をフォロワーに開示するシグナリング装置を適切に設計することにより,シグナリングなしでより高い実用性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-12-22T01:30:54Z) - Optimal Private Payoff Manipulation against Commitment in Extensive-form
Games [7.739432465414604]
広義のゲームにおいて,このような戦略行動を通じて従者の最適操作について検討する。
我々は、フォロワーが自分のプライベートペイオフを誤報告する最適な方法を見つけるのが難しかったことを示します。
論文 参考訳(メタデータ) (2022-06-27T08:50:28Z) - Offline Reinforcement Learning as Anti-Exploration [49.72457136766916]
我々は、新たなオフラインRLエージェントを設計するためのボーナスベースの探索に関する文献から着想を得た。
中心となるアイデアは、探索のために追加するのではなく、報酬から予測ベースの探査ボーナスを減じることだ。
我々のエージェントは、連続的な制御ロコモーションと操作タスクのセットにおいて、最先端技術と競合していることを示す。
論文 参考訳(メタデータ) (2021-06-11T14:41:30Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Optimally Deceiving a Learning Leader in Stackelberg Games [123.14187606686006]
MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
論文 参考訳(メタデータ) (2020-06-11T16:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。