論文の概要: Aligning the Evaluation of Probabilistic Predictions with Downstream Value
- arxiv url: http://arxiv.org/abs/2508.18251v1
- Date: Mon, 25 Aug 2025 17:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.898421
- Title: Aligning the Evaluation of Probabilistic Predictions with Downstream Value
- Title(参考訳): 下流値による確率予測の調整
- Authors: Novin Shahroudi, Viacheslav Komisarenko, Meelis Kull,
- Abstract要約: 予測性能のみに基づくメトリクスは、しばしば現実世界の下流への影響の尺度から発散する。
本稿では、下流評価と整合したプロキシ評価関数を学習するためのデータ駆動手法を提案する。
我々のアプローチでは、ニューラルネットワークによってパラメータ化された重み付けされたスコアリングルールを利用して、下流タスクのパフォーマンスに合わせて重み付けが学習される。
- 参考スコア(独自算出の注目度): 2.6636053598505307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every prediction is ultimately used in a downstream task. Consequently, evaluating prediction quality is more meaningful when considered in the context of its downstream use. Metrics based solely on predictive performance often diverge from measures of real-world downstream impact. Existing approaches incorporate the downstream view by relying on multiple task-specific metrics, which can be burdensome to analyze, or by formulating cost-sensitive evaluations that require an explicit cost structure, typically assumed to be known a priori. We frame this mismatch as an evaluation alignment problem and propose a data-driven method to learn a proxy evaluation function aligned with the downstream evaluation. Building on the theory of proper scoring rules, we explore transformations of scoring rules that ensure the preservation of propriety. Our approach leverages weighted scoring rules parametrized by a neural network, where weighting is learned to align with the performance in the downstream task. This enables fast and scalable evaluation cycles across tasks where the weighting is complex or unknown a priori. We showcase our framework through synthetic and real-data experiments for regression tasks, demonstrating its potential to bridge the gap between predictive evaluation and downstream utility in modular prediction systems.
- Abstract(参考訳): すべての予測は、最終的に下流のタスクで使用されます。
したがって、下流使用の文脈で考えると、予測品質の評価はより意味のあるものになる。
予測性能のみに基づくメトリクスは、しばしば現実世界の下流への影響の尺度から発散する。
既存のアプローチでは、複数のタスク固有のメトリクスを頼りにすることで、ダウンストリームビューを取り入れています。
本稿では、このミスマッチを評価アライメント問題とみなし、下流評価と整合したプロキシ評価関数を学習するためのデータ駆動手法を提案する。
適切なスコアリングルールの理論に基づいて、プロパティの保存を保証するスコアリングルールの変換を探索する。
我々のアプローチでは、ニューラルネットワークによってパラメータ化された重み付けされたスコアリングルールを利用して、下流タスクのパフォーマンスに合わせて重み付けが学習される。
これにより、重み付けが複雑あるいは未知のタスク間で、高速でスケーラブルな評価サイクルが可能になる。
我々は回帰タスクの合成および実データ実験を通じて、モジュラー予測システムにおける予測評価と下流ユーティリティのギャップを埋める可能性を示す。
関連論文リスト
- Geometric Data Valuation via Leverage Scores [0.2538209532048866]
本稿では,統計レバレッジスコアに基づくShapleyデータ評価の幾何学的代替手法を提案する。
我々のスコアはシャプリー評価のダミー、効率、対称性の公理を満たすことを示す。
また、レバレッジサンプリングされたサブセットのトレーニングは、パラメータと予測リスクが全データ最適化の$O(varepsilon)$以内のモデルを生成することを示す。
論文 参考訳(メタデータ) (2025-11-03T22:20:50Z) - Adversary-Free Counterfactual Prediction via Information-Regularized Representations [8.760019957506719]
本稿では,デコーダバイアス下での対実予測について検討し,数学的に基礎を成す情報理論的アプローチを提案する。
情報用語を上位にバウンドし、教師付き課題と組み合わせることで、安定的で、実証可能なトレーニング基準を導出する、トラクタブルな変動目標を導出する。
我々は,制御された数値シミュレーションと実世界の臨床データセットの評価を行い,最近の最先端のバランス,再重み付け,敵のベースラインと比較した。
論文 参考訳(メタデータ) (2025-10-17T09:49:04Z) - Multiply Robust Conformal Risk Control with Coarsened Data [0.0]
コンフォーマル予測(CP)は近年,膨大な関心を集めている。
本稿では、粗いデータから得られる結果に対して、分布自由な有効予測領域を得るという一般的な問題について考察する。
半パラメトリック理論の原則的利用は、フレキシブルな機械学習手法の促進の鍵となる利点を持つ。
論文 参考訳(メタデータ) (2025-08-21T12:14:44Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - Has the Deep Neural Network learned the Stochastic Process? An Evaluation Viewpoint [17.897121328003617]
本稿では,Deep Neural Networks (DNN) の評価に関する最初の体系的研究について述べる。
従来の評価手法は,観測対象の真実を再現するDNNの能力を評価するが,基礎となる過程を測ることができないことを示す。
我々は、F2SP(Fidelity toGT Process)と呼ばれる新しい評価基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T07:54:20Z) - Towards Motion Forecasting with Real-World Perception Inputs: Are
End-to-End Approaches Competitive? [93.10694819127608]
実世界の知覚入力を用いた予測手法の統一評価パイプラインを提案する。
我々の詳細な調査では、キュレートされたデータから知覚ベースのデータへ移行する際の大きなパフォーマンスギャップが明らかになりました。
論文 参考訳(メタデータ) (2023-06-15T17:03:14Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Post Reinforcement Learning Inference [22.117487428829488]
強化学習アルゴリズムから収集したデータを用いた推定と推定について検討する。
本稿では,時間変化の分散を安定化させるために,適応重みを慎重に設計した重み付きZ推定手法を提案する。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
論文 参考訳(メタデータ) (2023-02-17T12:53:15Z) - Local Evaluation of Time Series Anomaly Detection Algorithms [9.717823994163277]
本稿では,弱い仮定下でのほとんどすべてのデータセットに対して,逆アルゴリズムが高精度に到達し,リコール可能であることを示す。
本稿では,精度/リコール指標に対する理論的基盤,頑健,パラメータフリー,解釈可能な拡張を提案する。
論文 参考訳(メタデータ) (2022-06-27T10:18:41Z) - Evaluating Predictive Distributions: Does Bayesian Deep Learning Work? [45.290773422944866]
後続の予測分布は、点推定によって無視される不確実性を定量化する。
本稿では,このような予測を生成するエージェントの系統的評価を行うためのツールである,The Neural Testbedを紹介する。
論文 参考訳(メタデータ) (2021-10-09T18:54:02Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Combining Task Predictors via Enhancing Joint Predictability [53.46348489300652]
そこで本研究では,目標予測能力に基づいて参照の関連性を測定し,その関連性を高めるための新しい予測器組合せアルゴリズムを提案する。
提案アルゴリズムはベイズフレームワークを用いて,すべての参照の関連性について共同で評価する。
視覚属性ランキングとマルチクラス分類シナリオから得られた実世界の7つのデータセットの実験に基づいて,本アルゴリズムが性能向上に寄与し,既存の予測器の組み合わせアプローチの適用範囲を広くすることを示した。
論文 参考訳(メタデータ) (2020-07-15T21:58:39Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。