論文の概要: WOMAC: A Mechanism For Prediction Competitions
- arxiv url: http://arxiv.org/abs/2508.17907v1
- Date: Mon, 25 Aug 2025 11:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.746554
- Title: WOMAC: A Mechanism For Prediction Competitions
- Title(参考訳): WOMAC:予測競争のメカニズム
- Authors: Siddarth Srinivasan, Tao Lin, Connacher Murphy, Anish Thilagar, Yiling Chen, Ezra Karger,
- Abstract要約: 標準競技デザインは、達成された結果または保持されたラベルのセットに対して累積スコアに基づいて競技者をランク付けする。
主な原因は、専門家が反対する結果やラベルのノイズです。
WOMAC (Wisdom of the Most Accurate Crowd)
- 参考スコア(独自算出の注目度): 11.177961658802184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Competitions are widely used to identify top performers in judgmental forecasting and machine learning, and the standard competition design ranks competitors based on their cumulative scores against a set of realized outcomes or held-out labels. However, this standard design is neither incentive-compatible nor very statistically efficient. The main culprit is noise in outcomes/labels that experts are scored against; it allows weaker competitors to often win by chance, and the winner-take-all nature incentivizes misreporting that improves win probability even if it decreases expected score. Attempts to achieve incentive-compatibility rely on randomized mechanisms that add even more noise in winner selection, but come at the cost of determinism and practical adoption. To tackle these issues, we introduce a novel deterministic mechanism: WOMAC (Wisdom of the Most Accurate Crowd). Instead of scoring experts against noisy outcomes, as is standard, WOMAC scores experts against the best ex-post aggregate of peer experts' predictions given the noisy outcomes. WOMAC is also more efficient than the standard competition design in typical settings. While the increased complexity of WOMAC makes it challenging to analyze incentives directly, we provide a clear theoretical foundation to justify the mechanism. We also provide an efficient vectorized implementation and demonstrate empirically on real-world forecasting datasets that WOMAC is a more reliable predictor of experts' out-of-sample performance relative to the standard mechanism. WOMAC is useful in any competition where there is substantial noise in the outcomes/labels.
- Abstract(参考訳): コンペティションは、判断予測や機械学習において上位のパフォーマーを識別するために広く用いられており、標準的なコンペティションデザインは、その累積スコアに基づいて、実現された結果や保持されたラベルのセットにランク付けする。
しかし、この標準設計はインセンティブに適合せず、非常に統計的に効率的でもない。
主な原因は、専門家が得点する結果やラベルのノイズであり、弱い競争相手が偶然に勝つことがしばしば可能であり、勝者のすべての性質は、期待されるスコアを減らしても勝利の確率を向上する誤報を誘発する。
インセンティブ・コンパチビリティを達成する試みは、勝者の選択にさらにノイズを加えるランダム化メカニズムに頼っているが、決定論と実践的採用のコストがかかる。
これらの課題に対処するために,WOMAC (Wisdom of the Most Accurate Crowd) という新たな決定論的メカニズムを導入する。
ノイズの多い結果に対して専門家をスコアする代わりに、WOMACはノイズの多い結果に対して、仲間のエキスパートが予測した最高のポストアグリゲーションに対して専門家をスコアする。
WOMACは一般的なコンペティションデザインよりも効率的である。
WOMACの複雑さが増すにつれ、インセンティブを直接分析することは困難になるが、我々はそのメカニズムを正当化するための明確な理論的基盤を提供する。
また,実世界の予測データセットに対して,WOMACが標準機構に対する専門家のアウトオブサンプル性能のより信頼性の高い予測器であることを実証的に示す,効率的なベクトル化実装も提供する。
WOMACは、結果/ラベルにかなりのノイズがあるコンペで有用である。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Conformal Prediction Sets Can Cause Disparate Impact [4.61590049339329]
予測セットの提供は、決定に異なる影響を与える可能性があることを示す。
我々は,異なる影響を経験的に減少させるグループ間でセットサイズを等化することを提案する。
論文 参考訳(メタデータ) (2024-10-02T18:00:01Z) - CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文 参考訳(メタデータ) (2024-02-04T15:17:09Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Trustworthy Long-Tailed Classification [41.45744960383575]
本稿では,分類と不確実性評価を共同で行うために,Trustworthy Long-tailed Classification (TLC)法を提案する。
我々のTLCは、各専門家のエビデンスに基づく不確実性(EvU)とエビデンスを取得し、デプスター・シェーファー・エビデンス理論(DST)の下でこれらの不確実性とエビデンスを組み合わせる。
実験の結果,提案したTLCは最先端の手法よりも優れており,信頼性の高い不確実性に優れていた。
論文 参考訳(メタデータ) (2021-11-17T10:52:36Z) - Multi-Stage Decentralized Matching Markets: Uncertain Preferences and
Strategic Behaviors [91.3755431537592]
本稿では、現実世界のマッチング市場で最適な戦略を学ぶためのフレームワークを開発する。
我々は,不確実性レベルが特徴の福祉対フェアネストレードオフが存在することを示す。
シングルステージマッチングと比較して、マルチステージマッチングで参加者がより良くなることを証明します。
論文 参考訳(メタデータ) (2021-02-13T19:25:52Z) - Competing AI: How does competition feedback affect machine learning? [14.350250426090893]
コンペティションによって予測者が特定のサブ人口に特化し、一般人口よりもパフォーマンスが悪くなることを示す。
市場に競合する予測者が多すぎるか多すぎることが、全体的な予測品質を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-09-15T00:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。