論文の概要: Aligning the Evaluation of Probabilistic Predictions with Downstream Value
- arxiv url: http://arxiv.org/abs/2508.18251v1
- Date: Mon, 25 Aug 2025 17:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.898421
- Title: Aligning the Evaluation of Probabilistic Predictions with Downstream Value
- Title(参考訳): 下流値による確率予測の調整
- Authors: Novin Shahroudi, Viacheslav Komisarenko, Meelis Kull,
- Abstract要約: 予測性能のみに基づくメトリクスは、しばしば現実世界の下流への影響の尺度から発散する。
本稿では、下流評価と整合したプロキシ評価関数を学習するためのデータ駆動手法を提案する。
我々のアプローチでは、ニューラルネットワークによってパラメータ化された重み付けされたスコアリングルールを利用して、下流タスクのパフォーマンスに合わせて重み付けが学習される。
- 参考スコア(独自算出の注目度): 2.6636053598505307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every prediction is ultimately used in a downstream task. Consequently, evaluating prediction quality is more meaningful when considered in the context of its downstream use. Metrics based solely on predictive performance often diverge from measures of real-world downstream impact. Existing approaches incorporate the downstream view by relying on multiple task-specific metrics, which can be burdensome to analyze, or by formulating cost-sensitive evaluations that require an explicit cost structure, typically assumed to be known a priori. We frame this mismatch as an evaluation alignment problem and propose a data-driven method to learn a proxy evaluation function aligned with the downstream evaluation. Building on the theory of proper scoring rules, we explore transformations of scoring rules that ensure the preservation of propriety. Our approach leverages weighted scoring rules parametrized by a neural network, where weighting is learned to align with the performance in the downstream task. This enables fast and scalable evaluation cycles across tasks where the weighting is complex or unknown a priori. We showcase our framework through synthetic and real-data experiments for regression tasks, demonstrating its potential to bridge the gap between predictive evaluation and downstream utility in modular prediction systems.
- Abstract(参考訳): すべての予測は、最終的に下流のタスクで使用されます。
したがって、下流使用の文脈で考えると、予測品質の評価はより意味のあるものになる。
予測性能のみに基づくメトリクスは、しばしば現実世界の下流への影響の尺度から発散する。
既存のアプローチでは、複数のタスク固有のメトリクスを頼りにすることで、ダウンストリームビューを取り入れています。
本稿では、このミスマッチを評価アライメント問題とみなし、下流評価と整合したプロキシ評価関数を学習するためのデータ駆動手法を提案する。
適切なスコアリングルールの理論に基づいて、プロパティの保存を保証するスコアリングルールの変換を探索する。
我々のアプローチでは、ニューラルネットワークによってパラメータ化された重み付けされたスコアリングルールを利用して、下流タスクのパフォーマンスに合わせて重み付けが学習される。
これにより、重み付けが複雑あるいは未知のタスク間で、高速でスケーラブルな評価サイクルが可能になる。
我々は回帰タスクの合成および実データ実験を通じて、モジュラー予測システムにおける予測評価と下流ユーティリティのギャップを埋める可能性を示す。
関連論文リスト
- Has the Deep Neural Network learned the Stochastic Process? An Evaluation Viewpoint [17.897121328003617]
本稿では,Deep Neural Networks (DNN) の評価に関する最初の体系的研究について述べる。
従来の評価手法は,観測対象の真実を再現するDNNの能力を評価するが,基礎となる過程を測ることができないことを示す。
我々は、F2SP(Fidelity toGT Process)と呼ばれる新しい評価基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T07:54:20Z) - Towards Motion Forecasting with Real-World Perception Inputs: Are
End-to-End Approaches Competitive? [93.10694819127608]
実世界の知覚入力を用いた予測手法の統一評価パイプラインを提案する。
我々の詳細な調査では、キュレートされたデータから知覚ベースのデータへ移行する際の大きなパフォーマンスギャップが明らかになりました。
論文 参考訳(メタデータ) (2023-06-15T17:03:14Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Post Reinforcement Learning Inference [22.117487428829488]
強化学習アルゴリズムから収集したデータを用いた推定と推定について検討する。
本稿では,時間変化の分散を安定化させるために,適応重みを慎重に設計した重み付きZ推定手法を提案する。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
論文 参考訳(メタデータ) (2023-02-17T12:53:15Z) - Local Evaluation of Time Series Anomaly Detection Algorithms [9.717823994163277]
本稿では,弱い仮定下でのほとんどすべてのデータセットに対して,逆アルゴリズムが高精度に到達し,リコール可能であることを示す。
本稿では,精度/リコール指標に対する理論的基盤,頑健,パラメータフリー,解釈可能な拡張を提案する。
論文 参考訳(メタデータ) (2022-06-27T10:18:41Z) - Evaluating Predictive Distributions: Does Bayesian Deep Learning Work? [45.290773422944866]
後続の予測分布は、点推定によって無視される不確実性を定量化する。
本稿では,このような予測を生成するエージェントの系統的評価を行うためのツールである,The Neural Testbedを紹介する。
論文 参考訳(メタデータ) (2021-10-09T18:54:02Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。