論文の概要: Optimal Private Payoff Manipulation against Commitment in Extensive-form
Games
- arxiv url: http://arxiv.org/abs/2206.13119v1
- Date: Mon, 27 Jun 2022 08:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 00:12:25.473052
- Title: Optimal Private Payoff Manipulation against Commitment in Extensive-form
Games
- Title(参考訳): 集中型ゲームにおけるコミットに対する最適プライベートペイオフ操作
- Authors: Yurong Chen, Xiaotie Deng, Yuhao Li
- Abstract要約: 広義のゲームにおいて,このような戦略行動を通じて従者の最適操作について検討する。
我々は、フォロワーが自分のプライベートペイオフを誤報告する最適な方法を見つけるのが難しかったことを示します。
- 参考スコア(独自算出の注目度): 7.739432465414604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To take advantage of strategy commitment, a useful tactic of playing games, a
leader must learn enough information about the follower's payoff function.
However, this leaves the follower a chance to provide fake information and
influence the final game outcome. Through a carefully contrived payoff function
misreported to the learning leader, the follower may induce an outcome that
benefits him more, compared to the ones when he truthfully behaves.
We study the follower's optimal manipulation via such strategic behaviors in
extensive-form games. Followers' different attitudes are taken into account. An
optimistic follower maximizes his true utility among all game outcomes that can
be induced by some payoff function. A pessimistic follower only considers
misreporting payoff functions that induce a unique game outcome. For all the
settings considered in this paper, we characterize all the possible game
outcomes that can be induced successfully. We show that it is polynomial-time
tractable for the follower to find the optimal way of misreporting his private
payoff information. Our work completely resolves this follower's optimal
manipulation problem on an extensive-form game tree.
- Abstract(参考訳): 戦略のコミットメント(ゲームプレイの有用な戦術)を利用するには、リーダーはフォロワーの支払い機能に関する十分な情報を学ぶ必要がある。
しかし、これはフォロワーにフェイク情報を提供し、最終ゲーム結果に影響を与える機会を与える。
学習リーダーに誤って報告された注意深い報酬関数を通じて、フォロワーは、真に振る舞うときと比較して、より多くの利益をもたらす結果を引き起こす可能性がある。
広義のゲームにおいて,このような戦略行動を通じて従者の最適操作について検討する。
フォロワーの異なる態度が考慮される。
楽観的なフォロワーは、あるペイオフ関数によって引き起こされる全てのゲーム結果の中で、彼の真の有用性を最大化する。
悲観的なフォロワーは、ユニークなゲーム結果をもたらす誤報のペイオフ機能のみを考慮する。
本稿では,本論文で考慮したすべての設定に対して,成功に導出可能なゲーム結果をすべて特徴付ける。
従者が自己の個人的報酬情報を誤報する最適な方法を見つけることは,多項式時間にかかわることを示す。
我々の研究は、広義のゲームツリー上のこの追従者の最適操作問題を完全に解決する。
関連論文リスト
- Decentralized Online Learning in General-Sum Stackelberg Games [2.8659922790025463]
プレイヤーが分散的かつ戦略的に行動する一般のStackelbergゲームにおいて,オンライン学習問題を研究する。
我々は、フォロワーにとって、リーダーの行動にミオプティカルに最も反応することが、限られた情報設定にとって最良の戦略であることを示す。
後者の設定では、フォロワーに対する新たな操作戦略を設計し、最良の応答戦略に対して本質的な優位性を示す。
論文 参考訳(メタデータ) (2024-05-06T04:35:01Z) - Learning to Manipulate a Commitment Optimizer [14.806314018261416]
最近の研究によると、スタックルバーグのゲームでは、フォロワーは真のベストレスポンス行動から逸脱してリーダーを操作することができる。
これらの発見が示すリスクは、操作が依存する厳密な情報によってある程度軽減されているように見える。
まずは、フォロワーがリーダーの報酬に関する情報を与えられず、リーダーと対話して操作を学ばなければならないシナリオを考えます。
論文 参考訳(メタデータ) (2023-02-23T07:39:37Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - Commitment with Signaling under Double-sided Information Asymmetry [19.349072233281852]
この研究は、ベイジアン・スタックルバーグのゲームにおいて、両面の情報非対称性を考える。
我々は,リーダが実現した行動に関する部分的な情報をフォロワーに開示するシグナリング装置を適切に設計することにより,シグナリングなしでより高い実用性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-12-22T01:30:54Z) - Collusion Detection in Team-Based Multiplayer Games [57.153233321515984]
チームベースのマルチプレイヤーゲームにおいて,協調動作を検出するシステムを提案する。
提案手法は,ゲーム内行動パターンと組み合わせたプレイヤーの社会的関係を解析する。
次に,非教師なし学習手法であるアイソレーションフォレストによる検出を自動化する。
論文 参考訳(メタデータ) (2022-03-10T02:37:39Z) - Can Reinforcement Learning Find Stackelberg-Nash Equilibria in
General-Sum Markov Games with Myopic Followers? [156.5760265539888]
我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーに指名されたプレイヤーとフォロワーに指名されたプレイヤーの1人を用いて研究した。
そのようなゲームに対して、我々のゴールは、政策対 $(pi*, nu*)$ であるスタックルバーグ・ナッシュ均衡 (SNE) を見つけることである。
オンラインとオフラインの両方でSNEを解くために,サンプル効率強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-27T05:41:14Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Optimally Deceiving a Learning Leader in Stackelberg Games [123.14187606686006]
MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
論文 参考訳(メタデータ) (2020-06-11T16:18:21Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。