論文の概要: Nonuniform Negative Sampling and Log Odds Correction with Rare Events
Data
- arxiv url: http://arxiv.org/abs/2110.13048v1
- Date: Mon, 25 Oct 2021 15:37:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 13:43:07.770066
- Title: Nonuniform Negative Sampling and Log Odds Correction with Rare Events
Data
- Title(参考訳): 希少事象データを用いた非一様負サンプリングとログオッズ補正
- Authors: HaiYing Wang, Aonan Zhang, Chong Wang
- Abstract要約: 不均衡なデータに対する非一様負サンプリングによるパラメータ推定の問題について検討する。
一般逆確率重み付き(IPW)推定器を導出し,その分散を最小化する最適なサンプリング確率を得る。
理論的および実証的な結果から,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 15.696653979226113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the issue of parameter estimation with nonuniform negative
sampling for imbalanced data. We first prove that, with imbalanced data, the
available information about unknown parameters is only tied to the relatively
small number of positive instances, which justifies the usage of negative
sampling. However, if the negative instances are subsampled to the same level
of the positive cases, there is information loss. To maintain more information,
we derive the asymptotic distribution of a general inverse probability weighted
(IPW) estimator and obtain the optimal sampling probability that minimizes its
variance. To further improve the estimation efficiency over the IPW method, we
propose a likelihood-based estimator by correcting log odds for the sampled
data and prove that the improved estimator has the smallest asymptotic variance
among a large class of estimators. It is also more robust to pilot
misspecification. We validate our approach on simulated data as well as a real
click-through rate dataset with more than 0.3 trillion instances, collected
over a period of a month. Both theoretical and empirical results demonstrate
the effectiveness of our method.
- Abstract(参考訳): 不均衡データに対する非一様負サンプリングによるパラメータ推定の問題について検討する。
まず、不均衡なデータを用いて、未知のパラメータに関する利用可能な情報は、負のサンプリングの使用を正当化する、比較的少数の正のインスタンスにのみ結びつくことを証明します。
しかし、もし負のインスタンスが正のケースの同じレベルにサブサンプリングされると、情報損失が発生する。
より詳細な情報を維持するため、一般逆確率重み付き(IPW)推定器の漸近分布を導出し、その分散を最小化する最適なサンプリング確率を得る。
IPW法よりも高い推定効率向上を図るため,サンプルデータのログオッズを補正した確率ベース推定器を提案し,改良された推定器が大規模な推定器群の中で最小の漸近分散を有することを証明する。
また、パイロットの誤特定よりも頑丈である。
シミュレーションデータに対するアプローチと、0.3兆インスタンス以上の実際のクリックスルー率データセットが1ヶ月にわたって収集されたことを検証した。
理論と実験の結果から,本手法の有効性が示された。
関連論文リスト
- Efficient semi-supervised inference for logistic regression under
case-control studies [3.5485531932219243]
ラベル付きデータの結果がバイナリとなる半教師付き設定における推論問題を考える。
ケースコントロールサンプリングは、バイナリデータの不均衡構造を緩和するための効果的なサンプリング手法である。
ラベルのないデータが利用可能であれば、インターセプトパラメータを半教師付き学習設定で識別できることが分かる。
論文 参考訳(メタデータ) (2024-02-23T14:55:58Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Maximum sampled conditional likelihood for informative subsampling [4.708378681950648]
サブサンプリングは、計算資源が限られているときに大量のデータセットから情報を抽出する、計算学的に効果的な手法である。
そこで本研究では,サンプルデータに基づく最大条件付き確率推定器(MSCLE)を提案する。
論文 参考訳(メタデータ) (2020-11-11T16:01:17Z) - DEMI: Discriminative Estimator of Mutual Information [5.248805627195347]
連続確率変数間の相互情報を推定することは、高次元データにとってしばしば難解で困難である。
近年の進歩は、相互情報の変動的下界を最適化するためにニューラルネットワークを活用している。
提案手法は,データサンプルペアが結合分布から引き出される確率を提供する分類器の訓練に基づく。
論文 参考訳(メタデータ) (2020-10-05T04:19:27Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Estimating Gradients for Discrete Random Variables by Sampling without
Replacement [93.09326095997336]
我々は、置換のないサンプリングに基づいて、離散確率変数に対する期待値の偏りのない推定器を導出する。
推定器は3つの異なる推定器のラオ・ブラックウェル化として導出可能であることを示す。
論文 参考訳(メタデータ) (2020-02-14T14:15:18Z) - Unbiased and Efficient Log-Likelihood Estimation with Inverse Binomial
Sampling [9.66840768820136]
逆二項サンプリング(IBS)は、データセット全体のログ類似度を、バイアスなく効率的に推定することができる。
IBSは、推定パラメータと最大対数類似値において、代替サンプリング法よりも低い誤差を生成する。
論文 参考訳(メタデータ) (2020-01-12T19:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。