論文の概要: Strategizing against Learners in Bayesian Games
- arxiv url: http://arxiv.org/abs/2205.08562v1
- Date: Tue, 17 May 2022 18:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 14:07:16.320830
- Title: Strategizing against Learners in Bayesian Games
- Title(参考訳): ベイズゲームにおける学習者に対する戦略
- Authors: Yishay Mansour, Mehryar Mohri, Jon Schneider, Balasubramanian Sivan
- Abstract要約: プレイヤーの1人である学習者が無学習の学習戦略を採用する2人プレイヤゲームについて検討した。
一般のベイズゲームでは,学習者と学習者の双方の報酬の支払いが,そのタイプに依存する可能性がある。
- 参考スコア(独自算出の注目度): 74.46970859427907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study repeated two-player games where one of the players, the learner,
employs a no-regret learning strategy, while the other, the optimizer, is a
rational utility maximizer. We consider general Bayesian games, where the
payoffs of both the optimizer and the learner could depend on the type, which
is drawn from a publicly known distribution, but revealed privately to the
learner. We address the following questions: (a) what is the bare minimum that
the optimizer can guarantee to obtain regardless of the no-regret learning
algorithm employed by the learner? (b) are there learning algorithms that cap
the optimizer payoff at this minimum? (c) can these algorithms be implemented
efficiently? While building this theory of optimizer-learner interactions, we
define a new combinatorial notion of regret called polytope swap regret, that
could be of independent interest in other settings.
- Abstract(参考訳): 本研究では,学習者の1人が無反応学習戦略を採用し,もう1人のオプティマイザが合理的効用を最大化する2人のゲームについて検討した。
一般のベイズゲームでは、オプティマイザと学習者の双方の支払いは、一般に知られている分布から引き出された型に依存するが、学習者にはプライベートに開示される。
我々は以下の疑問に答える。
(a)学習者が採用する非回帰学習アルゴリズムに関係なく、最適化者が得ることを保証できる最小値は何でしょうか。
(b)最適化者の支払を最小限に抑える学習アルゴリズムはあるか?
(c)これらのアルゴリズムは効率的に実装できますか?
このオプティマイザ・ラーナー相互作用の理論を構築する一方で、他の設定に独立した関心を持つポリトープスワップ後悔という、新しい組合せ的後悔の概念を定義する。
関連論文リスト
- Maximizing utility in multi-agent environments by anticipating the behavior of other learners [17.703508282875323]
マルチエージェント設定では、各エージェントの決定がユーティリティや他のエージェントに影響を与える可能性がある。
本稿では,2種類のエージェントを含む2人プレイヤゲームについて検討する。
論文 参考訳(メタデータ) (2024-07-05T23:16:18Z) - Contextual Bandits and Imitation Learning via Preference-Based Active
Queries [17.73844193143454]
本研究では,学習者が実行された行動報酬の直接的な知識を欠いている文脈的包帯と模倣学習の問題を考察する。
その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。
学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
論文 参考訳(メタデータ) (2023-07-24T16:36:04Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Doubly Optimal No-Regret Online Learning in Strongly Monotone Games with Bandit Feedback [29.553652241608997]
本研究では,テキストモオと強いモノトーンゲームの研究を行い,その学習方法について検討した。
我々はまず,新しい帯域学習アルゴリズムを構築し,$tildeTheta(nsqrtT)$の単一エージェント最適後悔を実現することを示す。
そこで我々は,このオープンな問題を解決し,広範にわたるバンディットゲーム理論学習に寄与した。
論文 参考訳(メタデータ) (2021-12-06T08:27:54Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Fast Rates for Nonparametric Online Learning: From Realizability to
Learning in Games [36.969021834291745]
本稿では,仮説クラスの逐次的脂肪散乱次元の観点から,ほぼ最適誤差を導出する固有学習アルゴリズムを提案する。
この結果は、適切な学習者が準最適誤り境界を達成できるかどうかという疑問に答える。
実数値(回帰)設定では、最適誤り境界は不適切な学習者にさえ知られていなかった。
論文 参考訳(メタデータ) (2021-11-17T05:24:21Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Online Multiobjective Minimax Optimization and Applications [14.699969822572308]
本稿では,適応的な対戦相手が新しいゲームを導入する,シンプルだが汎用的なオンライン学習フレームワークを提案する。
学習者のゴールは、累積ベクトル値損失の最大座標を最小化することである。
対戦相手がまず行動を発表しなければならない設定と競合する簡単なアルゴリズムを提供する。
最適なアルゴリズムと境界を回復して、外部の後悔、内部の後悔、適応的な後悔、多集団の後悔、その後の後悔、睡眠専門家の設定における後悔の概念を最小化できます。
論文 参考訳(メタデータ) (2021-08-09T06:52:08Z) - Adversaries in Online Learning Revisited: with applications in Robust
Optimization and Adversarial training [55.30970087795483]
オンライン学習における「敵対的」の概念を再考し、堅牢な最適化と敵対的なトレーニング問題を解決することに動機づけられます。
我々は,想像遊びを用いた多種多様な問題クラスに対する一般的なアプローチを確立する。
論文 参考訳(メタデータ) (2021-01-27T14:23:06Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。