論文の概要: Calibration of P-values for calibration and for deviation of a
subpopulation from the full population
- arxiv url: http://arxiv.org/abs/2202.00100v1
- Date: Mon, 31 Jan 2022 21:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 16:02:52.318553
- Title: Calibration of P-values for calibration and for deviation of a
subpopulation from the full population
- Title(参考訳): p値のキャリブレーションによる全人口からの亜集団の分別と校正
- Authors: Mark Tygert
- Abstract要約: 筆者らの最近の研究論文では,形式的意義試験を広範囲に校正することなく,グラフィカルな手法と要約統計量を提案する。
概略指標と手法は確率的予測のキャリブレーションを測定し、サブポピュレーションと全集団の反応の差を評価することができる。
本稿は、P値の校正方法を詳述するため、数十年にわたる作業のレビューと合成を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The author's recent research papers, "Cumulative deviation of a subpopulation
from the full population" and "A graphical method of cumulative differences
between two subpopulations" (both published in volume 8 of Springer's
open-access "Journal of Big Data" during 2021), propose graphical methods and
summary statistics, without extensively calibrating formal significance tests.
The summary metrics and methods can measure the calibration of probabilistic
predictions and can assess differences in responses between a subpopulation and
the full population while controlling for a covariate or score via conditioning
on it. These recently published papers construct significance tests based on
the scalar summary statistics, but only sketch how to calibrate the attained
significance levels (also known as "P-values") for the tests. The present
article reviews and synthesizes work spanning many decades in order to detail
how to calibrate the P-values. The present paper presents computationally
efficient, easily implemented numerical methods for evaluating properly
calibrated P-values, together with rigorous mathematical proofs guaranteeing
their accuracy, and illustrates and validates the methods with open-source
software and numerical examples.
- Abstract(参考訳): 著者の最近の研究論文 "cumulative lack of a subpopulation from the full population" と "a graphical method of cumulative difference between two subpopulations" (どちらも2021年にspringerが公開したオープンアクセスの"journal of big data"の巻8で発表) では、公式な意義テストの校正なしにグラフィカルな方法と要約統計を提案している。
概略指標と手法は確率的予測の校正を計測でき、それに基づいて共変量やスコアを制御しながら、サブポピュレーションと全人口の反応の差を評価することができる。
これらの論文は、スカラー要約統計に基づいて重要度テストを構成するが、テストの達成された重要度(P値とも呼ばれる)の校正方法のみをスケッチしている。
本稿では,p値の校正方法を詳細に述べるため,数十年にわたる作業のレビューと合成を行う。
本稿では,その正確性を保証する厳密な数学的証明とともに,適切に校正されたp値を評価するための計算効率が高く,実装が容易な数値手法を提案し,オープンソースソフトウェアと数値例を用いてその方法を説明し,検証する。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Is this model reliable for everyone? Testing for strong calibration [4.893345190925178]
十分に校正されたリスク予測モデルでは、平均予測確率は任意のサブグループの真の事象率に近い。
強いキャリブレーションのためのモデル監査のタスクは、潜在的な部分群の数が多すぎるため、難しいことが知られている。
適合性試験の最近の進歩は潜在的な解決策を提供するが、弱い信号を持つ設定には設計されていない。
論文 参考訳(メタデータ) (2023-07-28T00:59:14Z) - Distribution-Free Model-Agnostic Regression Calibration via
Nonparametric Methods [9.662269016653296]
予測モデルの量子化を特徴付けるための個別キャリブレーションの目的について考察する。
既存の方法はほとんどなく、個々のキャリブレーションに関して統計的な保証が欠如している。
基礎となる予測モデルに依存しない単純な非パラメトリックキャリブレーション法を提案する。
論文 参考訳(メタデータ) (2023-05-20T21:31:51Z) - Predictive Data Calibration for Linear Correlation Significance Testing [0.0]
ピアソンの相関係数(PCC)は両方の点で欠落していることが知られている。
機械学習に基づく予測データキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2022-08-15T09:19:06Z) - Calibrated Nonparametric Scan Statistics for Anomalous Pattern Detection
in Graphs [4.756490355031122]
非パラメトリックスキャン統計(NPSS)は、有意ノードの割合よりも高い連結部分グラフを同定する。
NPSSは、異常な部分グラフに対する最近校正された統計量の多元性を説明できない。
本稿では,NPSSの再校正,複数の仮説テストの調整,基礎となるグラフ構造を考慮した新しい統計手法を提案する。
論文 参考訳(メタデータ) (2022-06-26T04:59:13Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。