論文の概要: Maximum sampled conditional likelihood for informative subsampling
- arxiv url: http://arxiv.org/abs/2011.05988v3
- Date: Wed, 11 May 2022 20:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 01:13:11.329909
- Title: Maximum sampled conditional likelihood for informative subsampling
- Title(参考訳): インフォメーションサブサンプリングのための最大サンプル条件付き確率
- Authors: HaiYing Wang and Jae Kwang Kim
- Abstract要約: サブサンプリングは、計算資源が限られているときに大量のデータセットから情報を抽出する、計算学的に効果的な手法である。
そこで本研究では,サンプルデータに基づく最大条件付き確率推定器(MSCLE)を提案する。
- 参考スコア(独自算出の注目度): 4.708378681950648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subsampling is a computationally effective approach to extract information
from massive data sets when computing resources are limited. After a subsample
is taken from the full data, most available methods use an inverse probability
weighted (IPW) objective function to estimate the model parameters. The IPW
estimator does not fully utilize the information in the selected subsample. In
this paper, we propose to use the maximum sampled conditional likelihood
estimator (MSCLE) based on the sampled data. We established the asymptotic
normality of the MSCLE and prove that its asymptotic variance covariance matrix
is the smallest among a class of asymptotically unbiased estimators, including
the IPW estimator. We further discuss the asymptotic results with the L-optimal
subsampling probabilities and illustrate the estimation procedure with
generalized linear models. Numerical experiments are provided to evaluate the
practical performance of the proposed method.
- Abstract(参考訳): サブサンプリングは、計算資源が限られているときに大量のデータセットから情報を抽出する計算学的に効果的な手法である。
サブサンプルを全データから取り出した後、ほとんどの利用可能な方法は、逆確率重み付き(IPW)客観的関数を使ってモデルパラメータを推定する。
IPW推定器は、選択したサブサンプルの情報を十分に活用していない。
本稿では,サンプルデータに基づく最大条件付き確率推定器(MSCLE)を提案する。
我々は,MSCLEの漸近正規性を確立し,その漸近分散共分散行列がIPW推定器を含む漸近的非偏差推定器群の中で最小であることを証明した。
さらに、L-最適サブサンプリング確率による漸近的な結果について議論し、一般化線形モデルによる推定手順を説明する。
提案手法の実用性を評価するための数値実験を行った。
関連論文リスト
- Bayesian Estimation and Tuning-Free Rank Detection for Probability Mass Function Tensors [17.640500920466984]
本稿では,関節のPMFを推定し,そのランクを観測データから自動的に推定する新しい枠組みを提案する。
我々は、様々なモデルパラメータの後方分布を近似するために、変分推論(VI)に基づく決定論的解を導出し、さらに、変分推論(SVI)を利用して、VVIベースのアプローチのスケーラブルバージョンを開発する。
合成データと実映画レコメンデーションデータの両方を含む実験は、推定精度、自動ランク検出、計算効率の点で、VVIおよびSVIベースの手法の利点を示している。
論文 参考訳(メタデータ) (2024-10-08T20:07:49Z) - Adaptive Online Bayesian Estimation of Frequency Distributions with Local Differential Privacy [0.4604003661048266]
本稿では, 局所微分プライバシー(LDP)フレームワークを用いて, 有限個のカテゴリの周波数分布を適応的かつオンラインに推定する手法を提案する。
提案アルゴリズムは, 後方サンプリングによるベイズパラメータ推定を行い, 得られた後方サンプルに基づいて, LDPのランダム化機構を適用する。
提案手法は, (i) アルゴリズムがターゲットとする後続分布が近似した後続サンプリングであっても真のパラメータに収束し, (ii) アルゴリズムが後続サンプリングを正確に行えば高い確率で最適サブセットを選択することを示す理論解析である。
論文 参考訳(メタデータ) (2024-05-11T13:59:52Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Nonuniform Negative Sampling and Log Odds Correction with Rare Events
Data [15.696653979226113]
不均衡なデータに対する非一様負サンプリングによるパラメータ推定の問題について検討する。
一般逆確率重み付き(IPW)推定器を導出し,その分散を最小化する最適なサンプリング確率を得る。
理論的および実証的な結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T15:37:22Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators
with Massive Data [20.79270369203348]
既存の手法は主に高い計算効率のために置換されたサブサンプリングに焦点を当てている。
まず,準類似度推定の文脈で最適なサブサンプリング確率を導出する。
我々は,分散サブサンプリングフレームワークを開発し,全データの小さなパーティションで統計を同時に計算する。
論文 参考訳(メタデータ) (2020-05-21T02:46:56Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - Asymptotic Analysis of Sampling Estimators for Randomized Numerical
Linear Algebra Algorithms [43.134933182911766]
最小二乗問題に対するRandNLAサンプリング推定器の分布を導出する解析法を開発した。
AAMSE(Asymptotic Mean Squared Error)とEAMSE(Asymsymotic Mean Squared Error)に基づく最適なサンプリング確率の同定を行った。
提案手法は, サンプリングプロセスにおけるレバレッジの役割を明らかにするとともに, 実験により既存の手法よりも改善したことを示す。
論文 参考訳(メタデータ) (2020-02-24T20:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。