論文の概要: Computational Efficient Approximations of the Concordance Probability in
a Big Data Setting
- arxiv url: http://arxiv.org/abs/2105.10392v1
- Date: Fri, 21 May 2021 15:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:15:18.697728
- Title: Computational Efficient Approximations of the Concordance Probability in
a Big Data Setting
- Title(参考訳): ビッグデータ設定における一致確率の効率的な近似
- Authors: Robin Van Oirbeek and Jolien Ponnet and Tim Verdonck
- Abstract要約: 本研究では,一致確率を高速かつ高精度に算出する2つの推定手法を提案する。
2つの実生活データセットの実験により、人工シミュレーションの結論が確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance measurement is an essential task once a statistical model is
created. The Area Under the receiving operating characteristics Curve (AUC) is
the most popular measure for evaluating the quality of a binary classifier. In
this case, AUC is equal to the concordance probability, a frequently used
measure to evaluate the discriminatory power of the model. Contrary to AUC, the
concordance probability can also be extended to the situation with a continuous
response variable. Due to the staggering size of data sets nowadays,
determining this discriminatory measure requires a tremendous amount of costly
computations and is hence immensely time consuming, certainly in case of a
continuous response variable. Therefore, we propose two estimation methods that
calculate the concordance probability in a fast and accurate way and that can
be applied to both the discrete and continuous setting. Extensive simulation
studies show the excellent performance and fast computing times of both
estimators. Finally, experiments on two real-life data sets confirm the
conclusions of the artificial simulations.
- Abstract(参考訳): 統計モデルを作成すると、性能測定は必須の課題となる。
受信動作特性下のエリア(AUC)は、バイナリ分類器の品質を評価するための最も一般的な尺度である。
この場合、AUCは、モデルの識別力を評価するために頻繁に使用される基準である一致確率に等しい。
aucとは対照的に、連続応答変数で一致確率を状況に拡張することもできる。
現在、データセットが停滞しているため、この判別尺度を決定するには膨大な量のコストを要するため、連続的な応答変数の場合、非常に時間がかかります。
そこで本研究では,コンコーダンス確率を高速かつ高精度に計算し,離散設定と連続設定の両方に適用可能な2つの推定法を提案する。
広範なシミュレーション研究により、両推定器の優れた性能と高速な計算時間を示す。
最後に, 2つの実生活データを用いた実験により, 人工シミュレーションの結論が確認された。
関連論文リスト
- Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - User-defined Event Sampling and Uncertainty Quantification in Diffusion
Models for Physical Dynamical Systems [49.75149094527068]
拡散モデルを用いて予測を行い,カオス力学系に対する不確かさの定量化が可能であることを示す。
本研究では,雑音レベルが低下するにつれて真の分布に収束する条件付きスコア関数の確率的近似法を開発する。
推論時に非線形ユーザ定義イベントを条件付きでサンプリングすることができ、分布の尾部からサンプリングした場合でもデータ統計と一致させることができる。
論文 参考訳(メタデータ) (2023-06-13T03:42:03Z) - Semi-Parametric Inference for Doubly Stochastic Spatial Point Processes: An Approximate Penalized Poisson Likelihood Approach [3.085995273374333]
二重確率点過程は、ランダム強度関数の実現を前提とした不均一過程として空間領域上の事象の発生をモデル化する。
既存の二重確率空間モデルの実装は、計算的に要求され、しばしば理論的な保証が制限され、または制限的な仮定に依存している。
論文 参考訳(メタデータ) (2023-06-11T19:48:39Z) - Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。
本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文 参考訳(メタデータ) (2023-05-09T22:49:55Z) - Spectral Representation Learning for Conditional Moment Models [33.34244475589745]
本研究では,不適切度を制御した表現を自動学習する手法を提案する。
本手法は,条件付き期待演算子のスペクトル分解によって定義される線形表現を近似する。
この表現をデータから効率的に推定できることを示し、得られた推定値に対してL2整合性を確立する。
論文 参考訳(メタデータ) (2022-10-29T07:48:29Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Scalable Uncertainty Quantification for Deep Operator Networks using
Randomized Priors [14.169588600819546]
ディープ・オペレーター・ネットワーク(DeepONets)における後続不確実性定量化のための単純かつ効果的なアプローチを提案する。
我々は,ランダム化前のアンサンブルに基づく頻繁なアプローチを採用し,高速化ハードウェア上での高速並列推論のための効率的なベクトル化実装を提案する。
論文 参考訳(メタデータ) (2022-03-06T20:48:16Z) - Approximate Bayesian Computation with Path Signatures [0.5156484100374059]
本稿では,時系列データ間の距離を構築するための自然候補としてパスシグネチャを導入する。
実験により, 従来の時系列モデルよりも高精度なベイズ後方推定が可能であることが示された。
論文 参考訳(メタデータ) (2021-06-23T17:25:43Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。