論文の概要: Post-Selection Distributional Model Evaluation
- arxiv url: http://arxiv.org/abs/2603.23055v1
- Date: Tue, 24 Mar 2026 10:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.438504
- Title: Post-Selection Distributional Model Evaluation
- Title(参考訳): 選択後分布モデルの評価
- Authors: Amirmohammad Farzaneh, Osvaldo Simeone,
- Abstract要約: 選択後分布モデル評価(PS-DME)
PS-DMEは任意のデータ依存モデル選択後に統計的に有効な分布モデル評価のためのフレームワークである。
結果:PS-DMEは,様々な信頼性レベルの候補構成の信頼性比較を可能にする。
- 参考スコア(独自算出の注目度): 31.006941545235396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formal model evaluation methods typically certify that a model satisfies a prescribed target key performance indicator (KPI) level. However, in many applications, the relevant target KPI level may not be known a priori, and the user may instead wish to compare candidate models by analyzing the full trade-offs between performance and reliability achievable at test time by the models. This task, requiring the reliable estimate of the test-time KPI distributions, is made more complicated by the fact that the same data must often be used both to pre-select a subset of candidate models and to estimate their KPI distributions, causing a potential post-selection bias. In this work, we introduce post-selection distributional model evaluation (PS-DME), a general framework for statistically valid distributional model assessment after arbitrary data-dependent model pre-selection. Building on e-values, PS-DME controls post-selection false coverage rate (FCR) for the distributional KPI estimates and is proved to be more sample efficient than a baseline method based on sample splitting. Experiments on synthetic data, text-to-SQL decoding with large language models, and telecom network performance evaluation demonstrate that PS-DME enables reliable comparison of candidate configurations across a range of reliability levels, supporting the statistically reliable exploration of performance--reliability trade-offs.
- Abstract(参考訳): 形式的モデル評価手法は、モデルが所定の目標鍵性能指標(KPI)レベルを満たすことを典型的に証明する。
しかし、多くのアプリケーションでは、関連するターゲットKPIレベルは事前に知られておらず、代わりに、モデルによってテスト時に達成可能な性能と信頼性のトレードオフをフルに分析することで、候補モデルの比較を希望する。
このタスクは、テスト時間KPI分布の信頼できる推定を必要とするが、候補モデルのサブセットを事前に選択し、それらのKPI分布を推定するためには、同じデータがしばしば使用される必要があるという事実により、より複雑になり、潜在的に選択後のバイアスを引き起こす。
本研究では,任意のデータ依存モデル選択後の分布モデル評価を統計的に有効なフレームワークとして,選択後分布モデル評価(PS-DME)を導入する。
電子値に基づいて,PS-DMEは分布KPI推定のための選択後偽カバレッジ率(FCR)を制御し,サンプル分割に基づくベースライン法よりも効率的な試料であることが証明された。
合成データ,大規模言語モデルを用いたテキストからSQLへの復号化,および通信ネットワークの性能評価実験により,PS-DMEは信頼性の高いレベルの候補構成の信頼性比較を可能にし,統計的に信頼性の高い性能-信頼性トレードオフの探索を支援する。
関連論文リスト
- Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Estimating Model Performance Under Covariate Shift Without Labels [0.0]
デプロイ後、機械学習モデルは、データ分散の変化によるパフォーマンス劣化を経験することが多い。
データドリフト検出などの既存のプロキシ手法では、これらのシフトの影響を適切に測定できない。
確率的適応性能推定(PAPE)を導入する。
PAPEはオリジナルのモデルとは独立して動作し、予測と確率推定にのみ依存する。
論文 参考訳(メタデータ) (2024-01-16T13:29:30Z) - Evaluation of human-model prediction difference on the Internet Scale of Data [32.7296837724399]
データセットのモデルを評価することは、予期せぬ多様な入力に直面すると、その振る舞いを捉えるのに失敗することが多い。
入力空間のPRによってNNを評価し比較する新しい手法であるOmniInputを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:53:12Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Statistical Model Criticism of Variational Auto-Encoders [15.005894753472894]
変分自動エンコーダ(VAE)の統計的評価のための枠組みを提案する。
我々は、手書き文字のイメージと英文のコーパスをモデル化する文脈において、このフレームワークの2つの例をテストする。
論文 参考訳(メタデータ) (2022-04-06T18:19:29Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。