論文の概要: When Should a Leader Act Suboptimally? The Role of Inferability in Repeated Stackelberg Games
- arxiv url: http://arxiv.org/abs/2310.00468v2
- Date: Sat, 12 Oct 2024 18:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 21:41:41.056815
- Title: When Should a Leader Act Suboptimally? The Role of Inferability in Repeated Stackelberg Games
- Title(参考訳): リーダーシップ行為はいつ副次的に行うべきか? 繰り返し行われるスタックルバーグゲームにおける不妊の役割
- Authors: Mustafa O. Karabag, Sophia Smith, Negar Mehr, David Fridovich-Keil, Ufuk Topcu,
- Abstract要約: 我々は、リーダーとフォロワーが繰り返し対話する観察結果を用いて、Stackelbergゲームを用いて、推論可能性の問題をモデル化する。
様々なゲーム設定において、不確実性ギャップは、リーダーの戦略の相互作用数とセマンティレベルの関数によって上限づけられていることが示される。
リーダーの準最適戦略が大きな不確実性ギャップに悩まされるような一連のゲームを特定する。
- 参考スコア(独自算出の注目度): 28.856644679990357
- License:
- Abstract: When interacting with other decision-making agents in non-adversarial scenarios, it is critical for an autonomous agent to have inferable behavior: The agent's actions must convey their intention and strategy. We model the inferability problem using Stackelberg games with observations where a leader and a follower repeatedly interact. During the interactions, the leader uses a fixed mixed strategy. The follower does not know the leader's strategy and dynamically reacts to the statistically inferred strategy based on the leader's previous actions. In the inference setting, the leader may have a lower performance compared to the setting where the follower has full information on the leader's strategy. We refer to the performance gap between these settings as the inferability gap. For a variety of game settings, we show that the inferability gap is upper-bounded by a function of the number of interactions and the stochasticity level of the leader's strategy, encouraging the use of inferable strategies with lower stochasticity levels. We also analyze bimatrix Stackelberg games and identify a set of games where the leader's near-optimal strategy may suffer from a large inferability gap.
- Abstract(参考訳): 非敵対的なシナリオで他の意思決定エージェントと対話する場合、自律的なエージェントが推論不可能な行動をとることが重要である。
我々は、リーダーとフォロワーが繰り返し対話する観察結果を用いて、Stackelbergゲームを用いて、推論可能性の問題をモデル化する。
インタラクションの間、リーダーは固定された混合戦略を使用します。
フォロワーはリーダーの戦略を知らないが、リーダーの以前の行動に基づいて統計的に推測された戦略に動的に反応する。
推論設定では、リーダーは、フォロワーがリーダーの戦略について十分な情報を持っている設定よりも低いパフォーマンスを持つことができる。
これらの設定間のパフォーマンスギャップを、推論可能性ギャップと呼びます。
各種ゲーム設定では,対話数の関数とリーダの戦略の確率レベルによって,推論可能性ギャップが上界であることを示し,確率レベルが低い推論可能な戦略の使用を奨励する。
また,ビマトリクスのStackelbergゲームを分析し,リーダーの準最適戦略が大きな不確実性ギャップに悩まされるような一連のゲームを特定する。
関連論文リスト
- Decentralized Online Learning in General-Sum Stackelberg Games [2.8659922790025463]
プレイヤーが分散的かつ戦略的に行動する一般のStackelbergゲームにおいて,オンライン学習問題を研究する。
我々は、フォロワーにとって、リーダーの行動にミオプティカルに最も反応することが、限られた情報設定にとって最良の戦略であることを示す。
後者の設定では、フォロワーに対する新たな操作戦略を設計し、最良の応答戦略に対して本質的な優位性を示す。
論文 参考訳(メタデータ) (2024-05-06T04:35:01Z) - Regret Minimization in Stackelberg Games with Side Information [44.72865997906019]
両プレイヤーがプレイ前に外部コンテキストを観察するStackelbergゲームの設定を形式化する。
非コンテキストバージョンとは対照的に、リーダーが完全な対向的な設定でノンレグレットを達成することは不可能であることを示す。
この結果から,2つの自然緩和において,非回帰学習が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-02-13T16:24:57Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。