論文の概要: Learning in Bayesian Stackelberg Games With Unknown Follower's Types
- arxiv url: http://arxiv.org/abs/2602.00771v1
- Date: Sat, 31 Jan 2026 15:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.390832
- Title: Learning in Bayesian Stackelberg Games With Unknown Follower's Types
- Title(参考訳): 未知のFollower型を用いたBayesian Stackelberg Gamesでの学習
- Authors: Matteo Bollini, Francesco Bacchiocchi, Samuel Coutts, Matteo Castiglioni, Alberto Marchesi,
- Abstract要約: We study online learning in Bayesian Stackelberg games。
我々は、フォロワーのタイプが明らかにされる、より簡単な型フィードバックモデルに焦点を当てます。
このような設定で、他のパラメータへの依存を無視した場合に、$widetildeO(sqrtT)$を後悔することのないアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.394442065108596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study online learning in Bayesian Stackelberg games, where a leader repeatedly interacts with a follower whose unknown private type is independently drawn at each round from an unknown probability distribution. The goal is to design algorithms that minimize the leader's regret with respect to always playing an optimal commitment computed with knowledge of the game. We consider, for the first time to the best of our knowledge, the most realistic case in which the leader does not know anything about the follower's types, i.e., the possible follower payoffs. This raises considerable additional challenges compared to the commonly studied case in which the payoffs of follower types are known. First, we prove a strong negative result: no-regret is unattainable under action feedback, i.e., when the leader only observes the follower's best response at the end of each round. Thus, we focus on the easier type feedback model, where the follower's type is also revealed. In such a setting, we propose a no-regret algorithm that achieves a regret of $\widetilde{O}(\sqrt{T})$, when ignoring the dependence on other parameters.
- Abstract(参考訳): ベイジアン・スタックルベルグゲームにおいて、リーダーが未知のプライベートタイプが各ラウンドで独立して引き出されるフォロワーと繰り返し対話するオンライン学習について研究する。
ゴールは、常にゲームの知識で計算された最適なコミットメントを実行することに関して、リーダーの後悔を最小限に抑えるアルゴリズムを設計することである。
私たちは、私たちの知識を最大限に活用するために、リーダーがフォロワーのタイプについて何も知らない最も現実的なケース、すなわちフォロワーの支払いの可能性を考えます。
これは、追従者型の支払いが知られている一般的なケースと比較して、かなりの追加の課題を提起する。
例えば、リーダーが各ラウンドの最後にフォロワーの一番の反応だけを観察する場合である。
そこで我々は,フォロワーの型も明らかにする,より簡単な型フィードバックモデルに注目した。
このような設定で、他のパラメータへの依存を無視する場合に、$\widetilde{O}(\sqrt{T})$を後悔することのないアルゴリズムを提案する。
関連論文リスト
- Learning in Structured Stackelberg Games [20.392732735387238]
構造化されたStackelbergゲームについて検討し、両プレイヤーがプレイ時の世界の状況に関する文脈情報を観察する。
我々は、文脈情報とフォロワーのタイプの間に固定的な関係を仮定する。
本研究は,学習課題の難しさを特徴付けるものではないことを示唆する。
論文 参考訳(メタデータ) (2025-04-11T23:14:32Z) - Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information [57.287431079644705]
そこで我々は,Stackelbergゲームにおけるオンライン学習の問題について,リーダーとフォロワーの列の側情報を用いて検討した。
我々は,リーダに対する学習アルゴリズムを提供し,盗聴フィードバックの下でO(T1/2)$後悔を達成する。
論文 参考訳(メタデータ) (2025-01-31T22:40:57Z) - Regret Minimization in Stackelberg Games with Side Information [44.72865997906019]
両プレイヤーがプレイ前に外部コンテキストを観察するStackelbergゲームの設定を形式化する。
非コンテキストバージョンとは対照的に、リーダーが完全な対向的な設定でノンレグレットを達成することは不可能であることを示す。
この結果から,2つの自然緩和において,非回帰学習が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-02-13T16:24:57Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Optimally Deceiving a Learning Leader in Stackelberg Games [123.14187606686006]
MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
論文 参考訳(メタデータ) (2020-06-11T16:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。