論文の概要: Winner's Curse Drives False Promises in Data-Driven Decisions: A Case Study in Refugee Matching
- arxiv url: http://arxiv.org/abs/2602.08892v1
- Date: Mon, 09 Feb 2026 16:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.382672
- Title: Winner's Curse Drives False Promises in Data-Driven Decisions: A Case Study in Refugee Matching
- Title(参考訳): Winner's Curseがデータ駆動決定におけるFalse Promisesを駆動する:Refugee Matchingのケーススタディ
- Authors: Hamsa Bastani, Osbert Bastani, Bryce McLaughlin,
- Abstract要約: 一般的な戦略はモデルに基づく政策評価であり、データからモデルを推定し、反現実的な結果を予測する。
この戦略は、勝者の呪いによる真の利益を、不当に楽観的に見積もることで知られている。
両者の組み合わせは、勝者の呪いを逃れるものではない。
- 参考スコア(独自算出の注目度): 26.01488014918074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in data-driven decision-making is accurate policy evaluation-i.e., guaranteeing that a learned decision-making policy achieves the promised benefits. A popular strategy is model-based policy evaluation, which estimates a model from data to infer counterfactual outcomes. This strategy is known to produce unwarrantedly optimistic estimates of the true benefit due to the winner's curse. We searched the recent literature on data-driven decision-making, identifying a sample of 55 papers published in the Management Science in the past decade; all but two relied on this flawed methodology. Several common justifications are provided: (1) the estimated models are accurate, stable, and well-calibrated, (2) the historical data uses random treatment assignment, (3) the model family is well-specified, and (4) the evaluation methodology uses sample splitting. Unfortunately, we show that no combination of these justifications avoids the winner's curse. First, we provide a theoretical analysis demonstrating that the winner's curse can cause large, spurious reported benefits even when all these justifications hold. Second, we perform a simulation study based on the recent and consequential data-driven refugee matching problem. We construct a synthetic refugee matching environment (calibrated to closely match the real setting) but designed so that no assignment policy can improve expected employment compared to random assignment. Model-based methods report large, stable gains of around 60% even when the true effect is zero; these gains are on par with improvements of 22-75% reported in the literature. Our results provide strong evidence against model-based evaluation.
- Abstract(参考訳): データ駆動意思決定における大きな課題は、正確な政策評価、すなわち、学習された意思決定ポリシーが約束された利益を達成することを保証することである。
一般的な戦略はモデルに基づく政策評価であり、データからモデルを推定し、反現実的な結果を予測する。
この戦略は、勝者の呪いによる真の利益を、不当に楽観的に見積もることで知られている。
データ駆動意思決定に関する最近の文献を検索し、過去10年間にManagement Scienceに掲載された55の論文のサンプルを特定しました。
1) 推定されたモデルは正確で, 安定し, 良好な校正がなされ, (2) 履歴データはランダムな処理代行を用いており, (3) モデルファミリーは適切に特定されており, (4) 評価手法は標本分割を用いる。
残念なことに、これらの正当性の組み合わせが勝者の呪いを避けることはない。
まず, 勝者の呪いが, これらすべての正当化が成立しても, 大きく, 突発的に報告される利益をもたらすことを示す理論的解析を行った。
第2に、最近およびその後のデータ駆動型避難所マッチング問題に基づくシミュレーション研究を行う。
実環境と密に適合するように調整された合成避難所マッチング環境を構築するが、ランダムな配置よりも期待された雇用を改善することができないよう設計する。
モデルに基づく手法では、真の効果がゼロであっても60%程度の大きな安定的なゲインを報告しており、これらのゲインは文献で報告された22-75%の改善と同等である。
その結果,モデルに基づく評価に対して強い証拠が得られた。
関連論文リスト
- A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [61.86327960322782]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。
最適化に基づく最適化手法であるMERITを導入する。
MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文 参考訳(メタデータ) (2025-06-23T19:59:30Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Fighting Sampling Bias: A Framework for Training and Evaluating Credit Scoring Models [2.918530881730374]
本稿では,サンプリングバイアスがモデルトレーニングおよび評価に与える影響について考察する。
スコアカード評価のためのバイアス認識型自己学習と拒絶推論フレームワークを提案する。
その結果,ベイズ評価を用いて受入率を決定する場合,利益率が約8%向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-17T20:59:54Z) - Externally Valid Policy Evaluation Combining Trial and Observational Data [6.875312133832077]
対象人口に対する政策の結果について有効な推測を行うために,試行データを用いたい。
本研究では,任意のモデル誤校正範囲下で有効な試行ベースの政策評価を行う手法を開発した。
論文 参考訳(メタデータ) (2023-10-23T10:01:50Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Evaluating Causal Inference Methods [0.4588028371034407]
我々は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入する。
我々の研究は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入している。
論文 参考訳(メタデータ) (2022-02-09T00:21:22Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。