論文の概要: Estimating $\alpha$-Rank by Maximizing Information Gain
- arxiv url: http://arxiv.org/abs/2101.09178v1
- Date: Fri, 22 Jan 2021 15:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 17:16:23.259149
- Title: Estimating $\alpha$-Rank by Maximizing Information Gain
- Title(参考訳): 情報ゲインの最大化による$\alpha$-Rankの推定
- Authors: Tabish Rashid, Cheng Zhang, Kamil Ciosek
- Abstract要約: ゲーム理論は、ゲームが正確には知られていないがサンプリングによって見積もる必要がある設定において、ますます適用されている。
本稿では、このようなシナリオでうまく機能するように設計された人気のゲーム理論ソリューションコンセプトである$alpha$-rankに焦点を当てます。
本稿では,ResponseGraphUCBの信頼区間基準と比較し,情報ゲインの利点を示す。
- 参考スコア(独自算出の注目度): 26.440923373794444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Game theory has been increasingly applied in settings where the game is not
known outright, but has to be estimated by sampling. For example, meta-games
that arise in multi-agent evaluation can only be accessed by running a
succession of expensive experiments that may involve simultaneous deployment of
several agents. In this paper, we focus on $\alpha$-rank, a popular
game-theoretic solution concept designed to perform well in such scenarios. We
aim to estimate the $\alpha$-rank of the game using as few samples as possible.
Our algorithm maximizes information gain between an epistemic belief over the
$\alpha$-ranks and the observed payoff. This approach has two main benefits.
First, it allows us to focus our sampling on the entries that matter the most
for identifying the $\alpha$-rank. Second, the Bayesian formulation provides a
facility to build in modeling assumptions by using a prior over game payoffs.
We show the benefits of using information gain as compared to the confidence
interval criterion of ResponseGraphUCB (Rowland et al. 2019), and provide
theoretical results justifying our method.
- Abstract(参考訳): ゲーム理論は、ゲームが正確には知られていないがサンプリングによって見積もる必要がある設定において、ますます適用されている。
例えば、マルチエージェント評価で生じるメタゲームは、複数のエージェントの同時デプロイを含む高価な実験を連続して実行することでのみアクセスすることができる。
本稿では,このようなシナリオでよく動作するように設計されたゲーム理論のコンセプトである$\alpha$-rankに着目した。
できるだけ少数のサンプルを用いて,ゲームの$\alpha$-rankを推定することを目指している。
本アルゴリズムは,$\alpha$-ranks に対する認識論的信念と観察されたペイオフとの間の情報ゲインを最大化する。
このアプローチには2つの大きなメリットがあります。
まず、$\alpha$-rankを識別する上で最も重要なエントリにサンプリングを集中させることができます。
第二に、ベイズの定式化は、事前のゲームペイオフを使用して、モデリングの仮定を構築するための施設を提供する。
本稿では,ResponseGraphUCB (Rowland et al) の信頼区間基準と比較し,情報ゲインの利点を示す。
提案手法を正当化する理論的結果を提供する。
関連論文リスト
- Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Policy Mirror Ascent for Efficient and Independent Learning in Mean
Field Games [35.86199604587823]
平均場ゲームは対称および匿名の$N$-playerゲームに対して近似的なナッシュ均衡を得るための理論的ツールとして使われてきた。
ポリシーミラーを実行する$N$エージェントは、$widetildemathcalO(varepsilon-2)$サンプル内で正規化ゲームのナッシュ平衡に収束することを示す。
論文 参考訳(メタデータ) (2022-12-29T20:25:18Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - A Ranking Game for Imitation Learning [22.028680861819215]
模倣を、$textitpolicy$と$textitreward$関数の間の2プレイヤーランキングベースのStackelbergゲームとして扱う。
このゲームは、オフラインの好みから学習する逆強化学習(IRL)法と方法の両方の多くのサブセットを含んでいる。
本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。
論文 参考訳(メタデータ) (2022-02-07T19:38:22Z) - Top $K$ Ranking for Multi-Armed Bandit with Noisy Evaluations [102.32996053572144]
我々は,各ラウンドの開始時に,学習者が各アームの真の報酬について,ノイズのない独立した評価を受けるマルチアームバンディット・セッティングを考える。
評価の方法によって異なるアルゴリズムアプローチと理論的保証を導出する。
論文 参考訳(メタデータ) (2021-12-13T09:48:54Z) - Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。
ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。
分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文 参考訳(メタデータ) (2021-11-10T22:12:52Z) - Pure Exploration with Structured Preference Feedback [25.894827160719526]
我々は、機能付きN$アームを含むサブセットワイドな選好フィードバックによる純粋探索の問題を考察する。
我々は,$tildeo (fracd2k delta2)$サンプル中の最良アームの検出を少なくとも1.99ドルで保証する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-12T08:57:29Z) - Markov Cricket: Using Forward and Inverse Reinforcement Learning to
Model, Predict And Optimize Batting Performance in One-Day International
Cricket [0.8122270502556374]
我々は1日の国際クリケットゲームをマルコフプロセスとしてモデル化し、前向きおよび逆強化学習(RL)を適用してゲームのための3つの新しいツールを開発する。
本手法は,残余スコアリング資源のプロキシとして使用する場合,最先端のDuckworth-Lewis-Stern法を3倍から10倍に向上させることを示す。
予測とシミュレーションのテクニックは中断されたゲームの最終スコアを推定するためのより公平な代替手段となり得るが、推定された報酬モデルはプロのゲームがプレイ戦略を最適化するための有用な洞察を提供するかもしれない。
論文 参考訳(メタデータ) (2021-03-07T13:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。