論文の概要: Is Knowledge Power? On the (Im)possibility of Learning from Strategic Interaction
- arxiv url: http://arxiv.org/abs/2408.08272v1
- Date: Thu, 15 Aug 2024 17:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:16:25.665077
- Title: Is Knowledge Power? On the (Im)possibility of Learning from Strategic Interaction
- Title(参考訳): 知識力とは何か : 戦略的相互作用から学ぶことの可能性について
- Authors: Nivasini Ananthakrishnan, Nika Haghtalab, Chara Podimata, Kunhe Yang,
- Abstract要約: 主要な問題は、エージェントが自分の好みに対する不確実性を克服し、不確実性を欠く結果を達成するかどうかである。
プレイヤーの行動が学習アルゴリズムに基づいて決定される完全に戦略的な環境での反復的な相互作用について検討する。
1人のプレイヤーがゲームについて完全な知識を持っている場合、初期情報ギャップは持続することを示す。
- 参考スコア(独自算出の注目度): 18.41181817693548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When learning in strategic environments, a key question is whether agents can overcome uncertainty about their preferences to achieve outcomes they could have achieved absent any uncertainty. Can they do this solely through interactions with each other? We focus this question on the ability of agents to attain the value of their Stackelberg optimal strategy and study the impact of information asymmetry. We study repeated interactions in fully strategic environments where players' actions are decided based on learning algorithms that take into account their observed histories and knowledge of the game. We study the pure Nash equilibria (PNE) of a meta-game where players choose these algorithms as their actions. We demonstrate that if one player has perfect knowledge about the game, then any initial informational gap persists. That is, while there is always a PNE in which the informed agent achieves her Stackelberg value, there is a game where no PNE of the meta-game allows the partially informed player to achieve her Stackelberg value. On the other hand, if both players start with some uncertainty about the game, the quality of information alone does not determine which agent can achieve her Stackelberg value. In this case, the concept of information asymmetry becomes nuanced and depends on the game's structure. Overall, our findings suggest that repeated strategic interactions alone cannot facilitate learning effectively enough to earn an uninformed player her Stackelberg value.
- Abstract(参考訳): 戦略的な環境で学ぶとき、重要な疑問は、エージェントが自分の好みに対する不確実性を克服して、不確実性のない結果を達成することができるかどうかである。
これらは相互の相互作用によってのみ可能でしょうか?
本稿では, エージェントがStackelbergの最適戦略の価値を得る能力に焦点をあて, 情報非対称性の影響について検討する。
ゲームの歴史と知識を考慮に入れた学習アルゴリズムに基づいて,プレイヤーの行動が決定される,完全に戦略的な環境下での反復的なインタラクションについて検討する。
プレイヤーがこれらのアルゴリズムを行動として選択するメタゲームの純粋ナッシュ均衡(PNE)について検討する。
1人のプレイヤーがゲームについて完全な知識を持っている場合、初期情報ギャップは持続することを示す。
つまり、情報提供者がスタックルバーグの価値を達成するPNEは常に存在するが、メタゲームのPNEが一部の情報提供者がスタックルバーグの価値を達成することを許さないゲームがある。
一方、両プレイヤーがゲームについて何らかの不確実性から始めると、情報の品質だけでは、スタックルバーグの価値をどのエージェントが達成できるかを判断できない。
この場合、情報非対称性の概念はニュアンス化され、ゲームの構造に依存する。
総じて, 戦略的相互作用の繰り返しだけでは, Stackelberg の値を持つ非インフォームプレイヤーの学習を効果的に行うことができないことが示唆された。
関連論文リスト
- Decentralized Online Learning in General-Sum Stackelberg Games [2.8659922790025463]
プレイヤーが分散的かつ戦略的に行動する一般のStackelbergゲームにおいて,オンライン学習問題を研究する。
我々は、フォロワーにとって、リーダーの行動にミオプティカルに最も反応することが、限られた情報設定にとって最良の戦略であることを示す。
後者の設定では、フォロワーに対する新たな操作戦略を設計し、最良の応答戦略に対して本質的な優位性を示す。
論文 参考訳(メタデータ) (2024-05-06T04:35:01Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Can Reinforcement Learning Find Stackelberg-Nash Equilibria in
General-Sum Markov Games with Myopic Followers? [156.5760265539888]
我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーに指名されたプレイヤーとフォロワーに指名されたプレイヤーの1人を用いて研究した。
そのようなゲームに対して、我々のゴールは、政策対 $(pi*, nu*)$ であるスタックルバーグ・ナッシュ均衡 (SNE) を見つけることである。
オンラインとオフラインの両方でSNEを解くために,サンプル効率強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-27T05:41:14Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - Model-free Reinforcement Learning for Stochastic Stackelberg Security
Games [7.470839530834359]
リーダーとフォロワーの2人のプレイヤーによる連続的なStackelbergゲームについて検討する。
フォロワーはシステムの状態にアクセスでき、リーダーはアクセスしない。
本稿では,MDPのモデルをシミュレートして,スタックルバーグ均衡政策を学習する予測サーサに基づくRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-24T22:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。