論文の概要: Estimation of Skill Distributions
- arxiv url: http://arxiv.org/abs/2006.08189v1
- Date: Mon, 15 Jun 2020 07:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 04:08:07.177174
- Title: Estimation of Skill Distributions
- Title(参考訳): スキル分布の推定
- Authors: Ali Jadbabaie and Anuran Makur and Devavrat Shah
- Abstract要約: トーナメントにおけるペアゲームの観察から,エージェント集団のスキル分布を学習する問題について検討する。
ほぼ最適の最小値平均二乗誤差スケーリングでスキル密度を学習する,単純かつトラクタブルなアルゴリズムを提案する。
我が国の結果は、2008年の大恐慌以前の低品質ファンドの多さと、金融危機後のより熟練した資金による業界支配に光を当てた。
- 参考スコア(独自算出の注目度): 39.29885444997579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of learning the skill distribution of a
population of agents from observations of pairwise games in a tournament. These
games are played among randomly drawn agents from the population. The agents in
our model can be individuals, sports teams, or Wall Street fund managers.
Formally, we postulate that the likelihoods of game outcomes are governed by
the Bradley-Terry-Luce (or multinomial logit) model, where the probability of
an agent beating another is the ratio between its skill level and the pairwise
sum of skill levels, and the skill parameters are drawn from an unknown skill
density of interest. The problem is, in essence, to learn a distribution from
noisy, quantized observations. We propose a simple and tractable algorithm that
learns the skill density with near-optimal minimax mean squared error scaling
as $n^{-1+\varepsilon}$, for any $\varepsilon>0$, when the density is smooth.
Our approach brings together prior work on learning skill parameters from
pairwise comparisons with kernel density estimation from non-parametric
statistics. Furthermore, we prove minimax lower bounds which establish minimax
optimality of the skill parameter estimation technique used in our algorithm.
These bounds utilize a continuum version of Fano's method along with a covering
argument. We apply our algorithm to various soccer leagues and world cups,
cricket world cups, and mutual funds. We find that the entropy of a learnt
distribution provides a quantitative measure of skill, which provides rigorous
explanations for popular beliefs about perceived qualities of sporting events,
e.g., soccer league rankings. Finally, we apply our method to assess the skill
distributions of mutual funds. Our results shed light on the abundance of low
quality funds prior to the Great Recession of 2008, and the domination of the
industry by more skilled funds after the financial crisis.
- Abstract(参考訳): 本稿では,トーナメントにおけるペアゲームの観察から,エージェントの集団のスキル分布を学習する問題について考察する。
これらのゲームは、人口からランダムに引き出されたエージェントの間でプレイされる。
私たちのモデルのエージェントは個人、スポーツチーム、あるいはウォール街のファンドマネージャーです。
ゲーム結果の確率はBradley-Terry-Luce(多項ロジット)モデルによって制御され、エージェントが他のエージェントを打つ確率はそのスキルレベルとスキルレベルのペア和の比率であり、スキルパラメータは未知のスキル密度から引き出される。
問題は本質的に、ノイズの多い量子化された観測から分布を学ぶことである。
そこで本研究では, ほぼ最適最小値を用いて, スキル密度を最小値に近い2乗誤差スケーリングで学習し, 任意の$\varepsilon>0$に対して$n^{-1+\varepsilon}$とする。
本手法は,非パラメトリック統計量からのカーネル密度推定とペアワイズによる学習スキルパラメータの事前研究を組み合わせる。
さらに,本アルゴリズムにおけるスキルパラメータ推定手法の最小最適性を確立するミニマックス下限を証明した。
これらの境界はファノの方法の連続バージョンと被覆引数を利用する。
我々は,このアルゴリズムを様々なサッカーリーグ,ワールドカップ,クリケットワールドカップ,相互資金に適用する。
学習分布のエントロピーはスキルの定量的指標を提供し、サッカーリーグのランキングのようなスポーツイベントの質が認識されるという一般的な信念に対する厳密な説明を与える。
最後に,本手法を用いて相互資金のスキル分布を評価する。
以上の結果から,2008年大不況前の低質ファンドの充実と,金融危機後のより熟練したファンドによる業界支配を明らかにした。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Decentralized model-free reinforcement learning in stochastic games with
average-reward objective [1.9852463786440127]
本アルゴリズムは,次数$T3/4$のサブ線形高確率後悔と次数$T2/3$のサブ線形高確率後悔を実現する。
本アルゴリズムは,従来の手法に比べて計算量が少なく,メモリスペースも少ない。
論文 参考訳(メタデータ) (2023-01-13T15:59:53Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Reinforcement Learning for Mean Field Games, with Applications to
Economics [0.0]
平均場ゲーム(MFG)および平均場制御問題(平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題)は、エージェントの連続体を持つゲームにおいてナッシュ平衡または社会的最適性を研究するためのフレームワークである。
本稿では,MFGとMFCのためのRLを用いた2つの時間スケールアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-25T16:45:04Z) - Simplified Kalman filter for online rating: one-fits-all approach [4.010371060637208]
私たちは、選手/チームのスキルがゲームの観察された結果から推測されるスポーツのレーティングの問題に対処します。
本研究は,ゲーム結果とスキルの関係の確率的モデルを利用して,新たなゲーム後のスキルを推定するオンライン評価アルゴリズムに着目した。
論文 参考訳(メタデータ) (2021-04-28T20:44:10Z) - Estimating $\alpha$-Rank by Maximizing Information Gain [26.440923373794444]
ゲーム理論は、ゲームが正確には知られていないがサンプリングによって見積もる必要がある設定において、ますます適用されている。
本稿では、このようなシナリオでうまく機能するように設計された人気のゲーム理論ソリューションコンセプトである$alpha$-rankに焦点を当てます。
本稿では,ResponseGraphUCBの信頼区間基準と比較し,情報ゲインの利点を示す。
論文 参考訳(メタデータ) (2021-01-22T15:46:35Z) - Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies
in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。
この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。
各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-21T17:51:57Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。