論文の概要: Beyond Winning: Margin of Victory Relative to Expectation Unlocks Accurate Skill Ratings
- arxiv url: http://arxiv.org/abs/2506.00348v1
- Date: Sat, 31 May 2025 02:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.794431
- Title: Beyond Winning: Margin of Victory Relative to Expectation Unlocks Accurate Skill Ratings
- Title(参考訳): 勝利を超えて: 予想以上の勝利のマルジンは、正確なスキル評価を解き放つ
- Authors: Shivam Shorewala, Zihao Yang,
- Abstract要約: Margin of Victory Differential Analysis (MOVDA)は、従来の評価システムを強化するフレームワークである。
MOVDAは、評価微分に基づいて予測されたMOVを予測するために、ドメイン固有の非線形関数を学習する。
NBAのプロバスケットボールデータによる実験によると、MOVDAは標準のELOやベイズベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 1.486435467709869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge of accurate relative skills in any competitive system is essential, but foundational approaches such as ELO discard extremely relevant performance data by concentrating exclusively on binary outcomes. While margin of victory (MOV) extensions exist, they often lack a definitive method for incorporating this information. We introduce Margin of Victory Differential Analysis (MOVDA), a framework that enhances traditional rating systems by using the deviation between the true MOV and a $\textit{modeled expectation}$. MOVDA learns a domain-specific, non-linear function (a scaled hyperbolic tangent that captures saturation effects and home advantage) to predict expected MOV based on rating differentials. Crucially, the $\textit{difference}$ between the true and expected MOV provides a subtle and weighted signal for rating updates, highlighting informative deviations in all levels of contests. Extensive experiments on professional NBA basketball data (from 2013 to 2023, with 13,619 games) show that MOVDA significantly outperforms standard ELO and Bayesian baselines. MOVDA reduces Brier score prediction error by $1.54\%$ compared to TrueSkill, increases outcome accuracy by $0.58\%$, and most importantly accelerates rating convergence by $13.5\%$, while maintaining the computational efficiency of the original ELO updates. MOVDA offers a theoretically motivated, empirically superior, and computationally lean approach to integrating performance magnitude into skill rating for competitive environments like the NBA.
- Abstract(参考訳): 競争システムにおける正確な相対スキルの知識は不可欠であるが、ELOのような基本的なアプローチは、バイナリ結果のみに集中することによって、非常に関連するパフォーマンスデータを捨てる。
勝利の限界(MOV)拡張は存在するが、これらの情報を統合するための決定的な方法が欠如していることが多い。
我々は、真のMOVと$\textit{modeled expectation}$とのずれを利用して、従来の評価システムを強化するフレームワークであるMergin of Victory Differential Analysis(MOVDA)を紹介する。
MOVDAは、評価微分に基づいて期待されるMOVを予測するために、ドメイン固有の非線形関数(飽和効果とホームアドバンテージをキャプチャする拡張双曲的タンジェント)を学習する。
重要なことに、$\textit{difference}$は、真のMOVと期待されているMOVの間に、評価更新のための微妙で重み付けされた信号を提供し、あらゆるレベルの競争における情報的偏差を強調している。
NBAのプロバスケットボールデータ(2013年から2023年、13,619試合)に関する大規模な実験は、MOVDAが標準のELOとベイズベースラインを著しく上回っていることを示している。
MOVDA は、TrueSkill と比較して Brier のスコア予測誤差を $1.54 % 削減し、結果の精度を 0.8 % 向上させ、最も重要なのは、オリジナルの ELO 更新の計算効率を維持しながら、評価収束率を $13.5 % 向上させることである。
MOVDAはNBAのような競争環境のスキル評価にパフォーマンスの規模を組み込むための理論的動機付け、経験的に優れている、そして計算上のリーンアプローチを提供する。
関連論文リスト
- MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - The Differences Between Direct Alignment Algorithms are a Blur [3.0059120458540383]
1段階法(ORPO, ASFT)は2段階法に比べて性能が低いことを示す。
明示的なSFTフェーズで2段階のセットアップに適応させることで性能が向上することを示す。
総合的な分析により、ペアワイドとポイントワイドの目的の選択がアライメントの成功の主要な決定要因であることが判明した。
論文 参考訳(メタデータ) (2025-02-03T10:54:14Z) - Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - Semi-Variance Reduction for Fair Federated Learning [19.19664904272192]
我々は2つの新しいフェアFLアルゴリズム、Variance Reduction(VRed)とSemi-Variance Reduction(VRed)を提案し、研究する。
VRedは、クライアントの損失関数間の平等を奨励し、分散を罰する。
対照的に、SemiVRedは、最悪のクライアントの損失関数と平均損失との差を罰する。
論文 参考訳(メタデータ) (2024-06-23T19:14:38Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Switch EMA: A Free Lunch for Better Flatness and Sharpness [58.55452862747021]
この研究は、一行の修正、すなわち、スイッチ(SEMA)と呼ばれる各エポック後のパラメータを元のモデルに切り替えることによって、EMAの完全なポテンシャルを明らかにする。
理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。
論文 参考訳(メタデータ) (2024-02-14T15:28:42Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。